Stuff – Page 17 – sixhat.net

PhD In Progress III - Vienna 2011

Are you a PhD student? Are you working on anything related (even marginally) to Complex Systems? Want to go to Vienna in September and meet up with other young scientists from around the globe?

Then show this call for abstracts to your Supervisor. Tell him how important this will be for your PhD and why networking in a interdisciplinary area like this is a good thing. Also tell him that you can apply to some funding for the expenses (Supervisors like that) and then pack your things.

Ah, there’s a catch to all this… you need to show us your work and therefore write an abstract so you can be selected! But that’s why you go to conferences, isn’t it?

See you in Vienna!

O Google anunciou que alterou o seu algoritmo de classificação de sites de forma a melhorar a qualidade dos resultados. Ora há algo que não consigo perceber. Como define o google a qualidade de um site?

Imaginemos que queremos medir a qualidade de um site: A qualidade de um site depende da relevância da informação nele existente para o utilizador que procura essa informação. Portanto, a qualidade tem que ser medida contra a bitola do utilizador. Como o Google tem milhões de utilizadores tem também milhões de bitolas o que torna a tarefa de definir a qualidade algo impossível.

Até agora o google tem-se socorrido de um truque para evitar a questão das inúmeras bitolas: Utilizar uma medida indirecta da qualidade! O algoritmo PageRank, idealizado pelos fundadores do Google e exposto no paper “The Anatomy of a Search Engine” foi o cavalo de batalha do motor de busca durante anos. A medida indirecta da qualidade era a quantidade de links de outros sites que apontavam para o nosso site. Isto indicaria quem os outros considerariam ser uma autoridade em determinada matéria. Claro que apesar de bela, esta ideia só por si não garantiria a qualidade dos resultados.

O Google não pode pesquisar a web de cada vez que se introduz uma pesquisa pelo que o sistema teve que ser acoplado a sistemas de processamento de língua natural, sistemas de classificação de textos, técnicas de machine learning, etc… de forma a que quando uma pessoa introduz um termo de pesquisa o que o motor faz é classificar este termo em categorias já existentes e devolver os resultados pré-classificados.

Para além disso o sistema tornou-se vulnerável a uma estratégia de linkfarming ou seja a criação artificial de links para a nossa página por forma a inflacionar a nossa “autoridade” artificialmente (o que não quer dizer nada acerca da qualidade).

Com estes problemas o google teve que mexer no algoritmo e a solução passou pela incorporação de “afinamentos”. Ou seja, partindo da classificação base o google começou a procurar soluções para as anomalias. Introduziu-se o rel=”nofollow” para tentar evitar o envio de autoridade, tentou-se detectar spam e falso search engine optmization (SEO) e começou a penalizar todos os sites que fizessem “batota”.

Batota no sentido do google era todo o site que usasse estratégias para subir artificialmente nos rankings de autoridade do google. A BMW alemã por exemplo foi penalizada por utilizar uma página cheia de keywords que depois era substituída via javascript por uma página normal aumentando assim a densidade de palavras e a sua autoridade nos tópicos relacionados com automóveis bávaros.

O google entre intervenções humanas, semi-automáticas ou mesmo não supervisionadas entrou numa luta que inevitavelmente perderá: o jogo do gato e do rato. A cada alteração do google os SEO masters alteram as suas estratégias para repor os seus sites novamente online.

Já escrevi 10 parágrafos e a questão de classificação de páginas de qualidade ainda é uma miragem. Como pode o Google fazê-lo? Como disse antes o problema é a definição de qualidade. Não há uma. Há tantas quantos os utilizadores, e aqui é que entra o único parâmetro que pode diferenciar do Google de um qualquer SEO Master para que os resultados sejam significativos. A solução do Google poderá passar pelo Grafo Social de cada um dos seus utilizadores.

O Google pelas enormes quantidade de dados que tem acerca de cada um dos seus utilizadores pode fazer um perfil de cada um de nós. Perante uma query pode analisar o nosso perfil e o perfil dos nosso amigos e seus amigos para perceber a partir do nosso histórico de acções se determinados tipo de sites corresponderão às nossas expectativas.

Um exemplo, se eu pesquisar por “social networks” certamente que não estarei à procura de sites do tipo facebook ou myspace, mas antes estarei interessado em teoria de grafos, detecção de comunidades, k-core analysis. E um artigo interessante para mim poderá vir do arXiv, Nature ou Science. Porquê? porque para mim será mais natural achar que um artigo vindo dessas fontes terá mais qualidade. Como é que o google vai saber isso? Naturalmente pelos meus hábitos de navegação e também pelo perfil dos alters do meu grafo social.

Utilizando os dados do meu grafo social o google pode melhorar os resultados do seu motor de busca para me dar sites de qualidade. Por outro lado baterá também os SEO masters porque estes não terão acesso ao volume de dados sociais que o google tem e portanto não poderão optimizar os seus sites para cada um dos possíveis utilizadores, mas continuarão a ter que optimizar baseado em estratégias de campo médio não podendo individualizar os sites.

Por outro lado, se os dados dos grafos sociais do google forem expostos publicamente… podemos estar perante um problema e novamente voltaremos à confusão, principalmente porque aí surgirão estratégias para eliminar a diferenciação dos utilizadores por forma a valorizar certos sites. Esta é alias a minha grande reticência em relação ao Facebook e ao seu grafo social que penso ser ainda mais interconectado que o do Google, mas que surgiu de base como uma ferramenta para vender mais aplicações e publicidade aos utilizadores do FB. O google terá um grafo mais esparso e assim talvez mais útil. Aliás, definir qual o threshold óptimo para os pesos das ligações poderá ser o grande desafio no desenho dos grafos sociais destas duas companhias. Como define o FB qual dos nossos 7000 amigos é que são relevantes? O tema da manipulação de grafos é conversa para outro post…

Concluindo, se o google estiver a implementar um motor de busca que responda a pedidos individuais de forma única e personalizada atendendo ao grafo social, poderá efectivamente ter uma solução interessante. No entanto isto tem um problema, que é precisar de utilizadores e dos seus perfis, e não resolve totalmente a questão da qualidade dos sites. Continua a ser uma medida indirecta da qualidade do site ajustando a bitola da qualidade pelo histórico de cada um. Funcionará melhor do que ultimamente sem dúvida, mas continua a ser uma falsa solução. Não é uma medida de qualidade de um site, por tal ser impossível, mas uma personalização que poderá falhar quando os nossos interesses mudarem. E felizmente mudam!

Dia de todos os cuidados…

We Want You at PhD in Progress ECCS11, Vienna

Tanto para tão pouco tempo…

Statistical machine learning for text classification with scikit-learn

back in lx, for a few days…

O novo sistema de ranking do Google é uma fraude?

Off to ETH, Zurich…

Blogging has legs…