Em 2008, o Google anunciou um novo serviço intrigante chamado Google Tendências da Gripe. Engenheiros da empresa observaram que certas consultas de busca (como as que incluem as palavras "febre" ou "tosse") pareciam aumentar em todas as estações de gripe. Sua idéia era usar a frequência dessas pesquisas para calcular as taxas de gripe em todo o país mais rapidamente do que poderia ser feito com dados convencionais (que geralmente leva algumas semanas para coletar e analisar), permitindo que as pessoas saibam quando tomar precauções extras para evitar o vírus.
Conteúdo Relacionado
- Como os modelos climáticos e o Google poderiam ajudar a prever a gripe
- Big Data ou Muita Informação?
Os meios de comunicação (inclusive este repórter) apressaram-se em parabenizar o Google pelo uso tão perspicaz, inovador e perturbador do big data. O único problema? O Google Tendências da Gripe não teve um bom desempenho.
O serviço superestimou consistentemente as taxas de gripe, quando comparado aos dados convencionais coletados posteriormente pelo CDC, estimando que a incidência de gripe era maior do que era de 100 em 108 semanas entre agosto de 2011 e setembro de 2013. Em janeiro de 2013, quando As taxas de gripe atingiram o pico, mas as estimativas do Google Tendências da Gripe foram duas vezes mais altas que os dados reais, e sua imprecisão finalmente começou a atrair a cobertura da imprensa.
A explicação mais comum para a discrepância é que o Google não levou em conta o aumento nas consultas relacionadas à gripe que ocorrem como resultado da histeria da gripe conduzida pela mídia que ocorre todo inverno. Mas esta semana na Science, um grupo de cientistas sociais liderados por David Lazer propõe uma explicação alternativa: os próprios ajustes do Google em seu algoritmo de busca são os culpados.
É reconhecidamente difícil para pessoas de fora analisar o Google Tendências da Gripe, porque a empresa não divulga os termos de pesquisa específicos que usa como dados brutos ou o algoritmo específico usado para converter a frequência desses termos em avaliações de gripe. Mas os pesquisadores fizeram o possível para inferir os termos usando o Google Correlate, um serviço que permite analisar as taxas de termos de pesquisa específicos ao longo do tempo.
Quando os pesquisadores fizeram isso para uma variedade de consultas relacionadas à gripe nos últimos anos, descobriram que algumas buscas importantes (aquelas para tratamentos de gripe e aquelas que perguntam como diferenciar a gripe do resfriado) foram mais relacionadas com o Google Flu. Estimativas de tendências do que com taxas reais de gripe, especialmente quando o Google superestimou a prevalência da doença. Essas pesquisas particulares, ao que parece, podem ser uma grande parte do problema da imprecisão.
Há outro bom motivo para suspeitar que esse seja o caso. Em 2011, como parte de um de seus ajustes regulares no algoritmo de busca, o Google começou a recomendar termos de pesquisa relacionados para muitas consultas (inclusive listar uma pesquisa de tratamentos contra gripe depois de alguém pesquisar no Google muitos termos relacionados à gripe) e em 2012 a empresa começou a fornecer diagnósticos potenciais em resposta a sintomas em pesquisas (incluindo listar "gripe" e "frio" depois de uma pesquisa que incluiu a expressão "dor de garganta", por exemplo, talvez levando o usuário a pesquisar como distinguir entre os dois). Esses ajustes, segundo os pesquisadores, provavelmente aumentaram artificialmente as taxas das buscas que eles identificaram como responsáveis pelas superestimadas do Google.
É claro que, se essa hipótese fosse verdadeira, isso não significaria que o Google Tendências da Gripe está inevitavelmente fadado à imprecisão, apenas que precisa ser atualizado para levar em conta as constantes mudanças do mecanismo de pesquisa. Mas Lazer e os outros pesquisadores argumentam que rastrear a gripe a partir de grandes volumes de dados é um problema particularmente difícil.
Uma grande proporção dos termos de pesquisa que se correlacionam com os dados do CDC sobre as taxas de gripe não é causada por pessoas que contraem a gripe, mas por um terceiro fator que afeta tanto os padrões de busca quanto a transmissão da gripe: inverno. Na verdade, os desenvolvedores do Google Tendências da Gripe relataram ter encontrado termos específicos - os relacionados ao basquete do ensino médio, por exemplo - que estavam correlacionados às taxas de gripe ao longo do tempo, mas claramente não tinham nada a ver com o vírus.
Com o tempo, os engenheiros do Google removeram manualmente vários termos relacionados às pesquisas de gripe, mas não têm nada a ver com a gripe, mas seu modelo ainda está muito dependente das tendências sazonais de pesquisa não relacionadas à gripe - parte do motivo pelo qual o Google Tendências da Gripe não refletiu 2009 epidemia de H1N1, que aconteceu durante o verão. Especialmente em suas versões anteriores, o Google Flu Trends era "detector de parte da gripe, parte detector de inverno", escrevem os autores do artigo da Science .
Mas tudo isso pode ser uma lição para o uso de big data em projetos como o Google Tendências da Gripe, em vez de uma acusação geral, segundo os pesquisadores. Se devidamente atualizado para levar em conta os ajustes no próprio algoritmo do Google, e rigorosamente analisado para remover fatores puramente sazonais, pode ser útil para documentar as taxas de gripe em todo o país, especialmente quando combinadas com dados convencionais.
Como teste, os pesquisadores criaram um modelo que combinava os dados do Google Tendências da Gripe (que é essencialmente em tempo real, mas potencialmente imprecisos) com dados do CDC de duas semanas (que é datado porque leva tempo para coletar, mas ainda pode ser um pouco indicativo das taxas atuais de gripe). Seu híbrido combinava os dados atuais e atuais da gripe muito mais de perto do que o Google Tendências da gripe sozinho, e apresentou uma maneira de obter essas informações muito mais rápido do que esperar duas semanas pelos dados convencionais.
"Nossa análise do Google Flu demonstra que os melhores resultados vêm da combinação de informações e técnicas de ambas as fontes", disse Ryan Kennedy, professor de ciência política e coautor da Universidade de Houston, em comunicado. "Em vez de falar sobre uma 'revolução de big data', deveríamos estar discutindo uma 'revolução de todos os dados'."