Bem, hoje é dia de partidas, mentiras pouco mais… mas em todo o caso dá que pensar que o mundo académico é também por sua vez um mundo de partidinhas, mentirinhas e ilusões. Recebi a notificação de aceitação de dois papers que submeti para a Interenational Conference on Complex Systems, em Boston e o resultado é todo ele ao contrário daquilo que esperava. O paper no qual tinha mais confiança ficou em “Poster” e o outro que ainda está mais verde foi aceite para palestra. O pior é que o paper que foi atirado para o canto dos posters teve um reviewer que se considera “expert” na matéria, mas mostra um total desconhecimento em relação ao assunto, numa das frases que utiliza para rejeitar o paper. Enfim… eu queria acreditar que era por ser dia 1 de Abril… mas infelizmente devo estar enganado. Não se pode ganhar sempre.
We Want You at PhD in Progress ECCS11, Vienna
PhD In Progress III - Vienna 2011
Then show this call for abstracts to your Supervisor. Tell him how important this will be for your PhD and why networking in a interdisciplinary area like this is a good thing. Also tell him that you can apply to some funding for the expenses (Supervisors like that) and then pack your things.
Ah, there’s a catch to all this… you need to show us your work and therefore write an abstract so you can be selected! But that’s why you go to conferences, isn’t it?
See you in Vienna!
Tanto para tão pouco tempo…
Conferência, Abstract, Simulação… Tanta corrida para todo o lado… tanta aula, tanta escrita… tanta leitura… ARGH…
PRECISO DIAS COM 90h.
E no fim a pergunta como a do poeta…
Statistical machine learning for text classification with scikit-learn
back in lx, for a few days…
After Zurich, it is now time to prepare for the next leg of my European tour: Milton Keynes for the étoile project and then Brussels for the Assyst review.
O novo sistema de ranking do Google é uma fraude?
O Google anunciou que alterou o seu algoritmo de classificação de sites de forma a melhorar a qualidade dos resultados. Ora há algo que não consigo perceber. Como define o google a qualidade de um site?
Imaginemos que queremos medir a qualidade de um site: A qualidade de um site depende da relevância da informação nele existente para o utilizador que procura essa informação. Portanto, a qualidade tem que ser medida contra a bitola do utilizador. Como o Google tem milhões de utilizadores tem também milhões de bitolas o que torna a tarefa de definir a qualidade algo impossível.
Até agora o google tem-se socorrido de um truque para evitar a questão das inúmeras bitolas: Utilizar uma medida indirecta da qualidade! O algoritmo PageRank, idealizado pelos fundadores do Google e exposto no paper “The Anatomy of a Search Engine” foi o cavalo de batalha do motor de busca durante anos. A medida indirecta da qualidade era a quantidade de links de outros sites que apontavam para o nosso site. Isto indicaria quem os outros considerariam ser uma autoridade em determinada matéria. Claro que apesar de bela, esta ideia só por si não garantiria a qualidade dos resultados.
O Google não pode pesquisar a web de cada vez que se introduz uma pesquisa pelo que o sistema teve que ser acoplado a sistemas de processamento de língua natural, sistemas de classificação de textos, técnicas de machine learning, etc… de forma a que quando uma pessoa introduz um termo de pesquisa o que o motor faz é classificar este termo em categorias já existentes e devolver os resultados pré-classificados.
Para além disso o sistema tornou-se vulnerável a uma estratégia de linkfarming ou seja a criação artificial de links para a nossa página por forma a inflacionar a nossa “autoridade” artificialmente (o que não quer dizer nada acerca da qualidade).
Com estes problemas o google teve que mexer no algoritmo e a solução passou pela incorporação de “afinamentos”. Ou seja, partindo da classificação base o google começou a procurar soluções para as anomalias. Introduziu-se o rel=”nofollow” para tentar evitar o envio de autoridade, tentou-se detectar spam e falso search engine optmization (SEO) e começou a penalizar todos os sites que fizessem “batota”.
Batota no sentido do google era todo o site que usasse estratégias para subir artificialmente nos rankings de autoridade do google. A BMW alemã por exemplo foi penalizada por utilizar uma página cheia de keywords que depois era substituída via javascript por uma página normal aumentando assim a densidade de palavras e a sua autoridade nos tópicos relacionados com automóveis bávaros.
O google entre intervenções humanas, semi-automáticas ou mesmo não supervisionadas entrou numa luta que inevitavelmente perderá: o jogo do gato e do rato. A cada alteração do google os SEO masters alteram as suas estratégias para repor os seus sites novamente online.
Já escrevi 10 parágrafos e a questão de classificação de páginas de qualidade ainda é uma miragem. Como pode o Google fazê-lo? Como disse antes o problema é a definição de qualidade. Não há uma. Há tantas quantos os utilizadores, e aqui é que entra o único parâmetro que pode diferenciar do Google de um qualquer SEO Master para que os resultados sejam significativos. A solução do Google poderá passar pelo Grafo Social de cada um dos seus utilizadores.
O Google pelas enormes quantidade de dados que tem acerca de cada um dos seus utilizadores pode fazer um perfil de cada um de nós. Perante uma query pode analisar o nosso perfil e o perfil dos nosso amigos e seus amigos para perceber a partir do nosso histórico de acções se determinados tipo de sites corresponderão às nossas expectativas.
Um exemplo, se eu pesquisar por “social networks” certamente que não estarei à procura de sites do tipo facebook ou myspace, mas antes estarei interessado em teoria de grafos, detecção de comunidades, k-core analysis. E um artigo interessante para mim poderá vir do arXiv, Nature ou Science. Porquê? porque para mim será mais natural achar que um artigo vindo dessas fontes terá mais qualidade. Como é que o google vai saber isso? Naturalmente pelos meus hábitos de navegação e também pelo perfil dos alters do meu grafo social.
Utilizando os dados do meu grafo social o google pode melhorar os resultados do seu motor de busca para me dar sites de qualidade. Por outro lado baterá também os SEO masters porque estes não terão acesso ao volume de dados sociais que o google tem e portanto não poderão optimizar os seus sites para cada um dos possíveis utilizadores, mas continuarão a ter que optimizar baseado em estratégias de campo médio não podendo individualizar os sites.
Por outro lado, se os dados dos grafos sociais do google forem expostos publicamente… podemos estar perante um problema e novamente voltaremos à confusão, principalmente porque aí surgirão estratégias para eliminar a diferenciação dos utilizadores por forma a valorizar certos sites. Esta é alias a minha grande reticência em relação ao Facebook e ao seu grafo social que penso ser ainda mais interconectado que o do Google, mas que surgiu de base como uma ferramenta para vender mais aplicações e publicidade aos utilizadores do FB. O google terá um grafo mais esparso e assim talvez mais útil. Aliás, definir qual o threshold óptimo para os pesos das ligações poderá ser o grande desafio no desenho dos grafos sociais destas duas companhias. Como define o FB qual dos nossos 7000 amigos é que são relevantes? O tema da manipulação de grafos é conversa para outro post…
Concluindo, se o google estiver a implementar um motor de busca que responda a pedidos individuais de forma única e personalizada atendendo ao grafo social, poderá efectivamente ter uma solução interessante. No entanto isto tem um problema, que é precisar de utilizadores e dos seus perfis, e não resolve totalmente a questão da qualidade dos sites. Continua a ser uma medida indirecta da qualidade do site ajustando a bitola da qualidade pelo histórico de cada um. Funcionará melhor do que ultimamente sem dúvida, mas continua a ser uma falsa solução. Não é uma medida de qualidade de um site, por tal ser impossível, mas uma personalização que poderá falhar quando os nossos interesses mudarem. E felizmente mudam!
Off to ETH, Zurich…
I’m almost off to Zurich for a week of scientific debate and brainstorm at ETH. I’ll have a presentation as soon as I get off the plane, where I’ll be showing mainly the work I’ve been doing on the http://theobservatorium.eu/ . This will be my first time in Zurich and for what I see the weather is not even close to Lisbon… :( Temperature tops at 4ºC while we are here it is around 20ºC… so I imagine that I wont go out much, but I’ll try… Now… I just need ideas of things to visit: Can you help?
Blogging has legs…
Blogging has legsvia Blogging Drift — Matt Mullenweg.
And me thinking that after RSS death, this was the time to say Blogging was going the same path,… road… under… dead… (can I fit this in 140 characters?)