https://frosthead.com

Pode um modelo estatístico prever com precisão as contagens das medalhas olímpicas?

Se alguém lhe pedisse para prever o número de medalhas que cada país ganharia nas Olimpíadas deste ano, você provavelmente tentaria identificar os atletas favorecidos em cada evento, depois o total de vitórias esperadas de cada país para chegar a um resultado.

Tim e Dan Graettinger, os irmãos por trás da empresa de mineração de dados Discovery Corps, Inc., têm uma abordagem bastante diferente. Eles ignoram totalmente os atletas.

Em vez disso, seu modelo para os jogos de Sochi examina a área geográfica de cada país, o PIB per capita, o valor total das exportações e a latitude para determinar quantas medalhas cada país ganhará. Caso você esteja se perguntando, ele prevê que os EUA sairão no topo, com 29 medalhas no total.

Os Graettingers não são os primeiros a empregar esse tipo de abordagem de cima para baixo baseada em dados para prever as contagens de medalhas. Daniel Johnson, um professor de economia do Colorado College, construiu modelos semelhantes para as cinco Olimpíadas entre 2000 e 2008 - alcançando uma precisão geral de 94% na previsão do número de medalhas de cada país - mas não criou um modelo para Sochi.

Dan e Tim são mais novos no jogo. Dan - que normalmente trabalha em projetos de mineração de dados mais convencionais, por exemplo, prevendo os clientes potenciais de uma empresa - primeiro se interessou em usar modelos para prever competições quatro anos atrás, durante as Olimpíadas de Inverno de Vancouver. "Eu uso dados sobre o passado para prever o futuro o tempo todo", diz ele. "Todas as noites, eles mostravam a contagem de medalhas na TV, e eu comecei a pensar se poderíamos prever isso."

Embora o desempenho de atletas individuais possa variar de forma imprevisível, ele argumentou, pode haver uma relação geral entre as características fundamentais de um país (seu tamanho, clima e quantidade de riqueza, por exemplo) e o número de medalhas que provavelmente levaria para casa. Esse tipo de abordagem não seria capaz de dizer qual concorrente poderia vencer um determinado evento, mas com dados suficientes, ele poderia prever com precisão as contagens de medalhas agregadas para cada país.

Inicialmente, ele e seu irmão começaram a trabalhar no desenvolvimento de um modelo preliminar para os jogos de Londres em 2012. Para começar, eles coletaram uma ampla gama de diferentes tipos de conjuntos de dados, desde a geografia de um país até sua história, religião, riqueza e estrutura política. Em seguida, eles usaram análises de regressão e outros métodos de análise de dados para ver quais variáveis ​​tinham a relação mais próxima com dados históricos sobre medalhas olímpicas.

Eles descobriram que, para os jogos de verão, um modelo que incorporava o produto interno bruto, a população, a latitude e a liberdade econômica geral do país (medido pelo índice da Fundação Heritage) se correlacionava melhor com as medalhas de cada país nas duas Olimpíadas anteriores (2004 e 2008). Mas, nesse ponto, seu modelo preliminar só podia prever quais países ganhariam duas ou mais medalhas, não o número de medalhas por país.

Eles decidiram melhorá-lo para os jogos de Sochi, mas não podiam confiar em seu modelo anterior, porque os países que são bem-sucedidos no inverno diferem muito do verão. Seu novo modelo de Sochi aborda o problema de prever contagens de medalhas em duas etapas. Como cerca de 90% dos países nunca ganharam uma única medalha de Olimpíadas de Inverno (nenhum atleta do Oriente Médio, América do Sul, África ou Caribe já ganhou), primeiro separa os dez por cento que provavelmente ganharão pelo menos um, e então prevê quantos cada um vai ganhar.

"Algumas tendências são praticamente o que você esperaria - como a população de um país fica maior, há mais chances de ganhar uma medalha", diz Tim. "Eventualmente, no entanto, você precisa de um mecanismo estatístico mais poderoso, capaz de lidar com muitas variáveis ​​e classificá-las em termos de quais são as mais preditivas."

Eventualmente, eles se depararam com algumas variáveis ​​que separam com precisão os noventa por cento dos países que não ganharam medalhas dos dez por cento que provavelmente vencerão: eles incluíram taxa de migração, número de médicos per capita, latitude, produto interno bruto e se o país tinha conquistou uma medalha nos jogos anteriores de verão (nenhum país jamais ganhou uma medalha de inverno sem ganhar uma no verão anterior, em parte porque a quantidade de ganhadores do verão é muito maior do que a de inverno). Ao executar este modelo nas duas últimas Olimpíadas de Inverno, esse modelo determinou quais nações levaram para casa uma medalha com 96, 5% de precisão.

Com 90% dos países eliminados, os Graettingers usaram análises de regressão semelhantes para criar um modelo que previa, retroativamente, quantas medalhas cada país restante ganhava. Sua análise constatou que uma lista ligeiramente diferente de variáveis ​​se ajusta melhor aos dados da medalha histórica. Estas variáveis, juntamente com as previsões para os jogos de Sochi, estão abaixo:

Quadro 4 - Medalha Predicted Table 2 - with borders.png Previsões do modelo para os jogos de Sochi (Graph courtesy Discovery Corps, Inc.)

Algumas das variáveis ​​que se mostraram correlativas não são um grande choque - faz sentido que os países de latitude superior se saiam melhor nos eventos jogados durante os jogos de inverno - mas alguns foram mais surpreendentes.

"Pensávamos que a população, e não a área da terra, seria importante", diz Dan. Eles não sabem por que a área geográfica acaba ajustando os dados históricos mais de perto, mas pode ser porque alguns países de alta população que não ganham medalhas de inverno (como a Índia e o Brasil) jogam fora os dados. Ao usar a área de terra, o modelo evita a influência exagerada desses países, mas ainda mantém uma associação aproximada com a população, porque, no geral, os países com áreas maiores têm populações maiores.

Claro, o modelo não é perfeito, mesmo em dados históricos correspondentes. "Nossa abordagem é a abordagem de 30.000 pés. Há variáveis ​​que não podemos explicar", diz Tim. Alguns países superaram repetidamente as previsões do modelo (incluindo a Coréia do Sul, que ganha uma quantidade desproporcional de eventos de patinação de velocidade em pista curta) enquanto outros consistentemente têm desempenho inferior (como o Reino Unido, que parece se sair melhor nos eventos de verão que seriam esperados) talvez porque - apesar de sua latitude - ele consiga mais chuva do que neve.

Além disso, uma exceção consistente que eles encontraram nas previsões do modelo é que o país anfitrião tem mais medalhas do que seria de outra forma, baseado simplesmente nos dados. Tanto a Itália (durante os jogos de Turim de 2006) quanto o Canadá (durante os jogos de Vancouver em 2010) superaram o modelo, com o Canadá estabelecendo seu recorde de todos os tempos ao ganhar 14 ouros.

Ainda assim, com base em sua abordagem estatisticamente rigorosa, os Graettingers estão confiantes de que, no geral, seu modelo prevê a contagem final de medalhas com um grau de precisão relativamente alto.

Como suas previsões se comparam às de especialistas que usam estratégias mais convencionais? Os especialistas não diferem dramaticamente, mas eles têm alguns países tradicionalmente bem-sucedidos (Noruega, Canadá, Rússia) conquistando um número maior de medalhas, juntamente com alguns outros (China, Holanda, Austrália), cada um ganhando menos.

Até o momento, os Graettingers não apostaram em suas previsões, mas planejam comparar a saída de seu modelo com as probabilidades de apostas pouco antes do início dos jogos. Se eles virem alguma discrepância que gostariam de explorar, podem acabar colocando o dinheiro onde está a boca.

Pode um modelo estatístico prever com precisão as contagens das medalhas olímpicas?