https://frosthead.com

Big Data ficou maior como o Watson da IBM encontra a Encyclopedia of Life

Depois de 2.000 anos, a última enciclopédia da vida está à beira de uma nova era baseada em dados. Um subsídio da National Science Foundation foi concedido à Encyclopedia of Life (EOL), à IBM e ao Georgia Institute of Technology. O subsídio permitirá que quantidades massivas de dados sejam processadas e indexadas de forma a permitir que uma ciência inovadora seja realizada.

Conteúdo Relacionado

  • O novo sistema de reserva marinha proposto oferece uma perspectiva otimista para a lagosta e o pescador de lagosta

No ano 77 dC, Plínio, o Velho, começou a escrever a primeira enciclopédia do mundo, a História Natural. Incluía tudo, da astronomia à botânica, da zoologia à antropologia e muito mais. Plínio tentou colocar tudo o que ele poderia reunir sobre o mundo natural em um único trabalho escrito. Nos últimos 2.000 anos, uma longa sucessão de cientistas inspirados por Plínio teve a mesma visão.

Plínio incluiu 20.000 tópicos em 36 volumes, mas encontrou as limitações do que uma única pessoa pode descobrir, gravar e processar dentro de uma vida humana. Ele morreu durante a erupção do Monte Vesúvio antes que ele pudesse terminar uma edição final de sua obra-prima. Mesmo em sua época, não era possível uma pessoa ler todos os livros, aprender todas as coisas e explicar tudo para o mundo.

Como cientistas posteriores, editores e bibliotecários descobriram em um mundo que acrescenta mais conhecimento escrito a cada ano que passa, mesmo se você pudesse armazenar todos os livros e pesquisas do mundo em um prédio, é um desafio tornar todas as informações relevantes disponíveis para pesquisadores durante as limitações de suas breves vidas humanas.

A EOL pode ser capaz de mudar isso aplicando o poder computacional de última geração a diferentes coleções de dados biológicos. O projeto é uma coleção digital gratuita e aberta de fatos sobre biodiversidade, artigos e multimídia, um dos maiores do mundo. Sediada na Smithsonian Institution e com seus 357 parceiros e fornecedores de conteúdo, incluindo a Harvard University e a New Library of Alexandria no Egito, a EOL cresceu de 30.000 páginas quando foi lançada em 2008 para mais de 2 milhões, com 1, 3 milhão de páginas de texto, vídeo, áudio e fotografias, e suporta 20 idiomas.

“Eu vim para o Smithsonian em 2010 da indústria de software”, diz o diretor da EOL, Bob Corrigan. “Uma das descobertas que fiz aqui é que, enquanto a TI está em toda parte, ela não penetrou no mundo dos museus da mesma maneira que penetrou no mundo comercial. Especialmente em biologia, os dados mais importantes foram enterrados em livros e planilhas. ”

Como os dados biológicos, em várias formas, podem ser combinados e extraídos para novos insights sobre a vida na Terra? E se os dados sobre, digamos, a biodiversidade de borboletas na África ao longo de uma década fossem combinados com dados sobre práticas agrícolas e chuvas? Poderia algo novo ser aprendido? É preciso algo maior que um cérebro humano para fazer isso. Algo como o supercomputador Watson da IBM.

“A IBM está contribuindo com esforço e acesso a uma versão [do Watson] que não está disponível publicamente”, diz Jennifer Hammock, diretora de programa da EOL. “Eles também vão ter pessoas trabalhando nisso. A IBM está fazendo isso como uma contribuição em espécie. ”

O Watson é um supercomputador que não processa apenas números em grandes volumes. Ele usa inteligência artificial para permitir que os usuários façam perguntas em linguagem simples.

"Eu diria que, do ponto de vista do usuário, isso significa que o banco de dados é algo que você pode fazer e fazer uma pergunta como se fosse de um humano", diz Hammock. "Tipo, você pode me dizer se esta borboleta roxa ocorre na África?"

"Responder a uma pergunta simples em qualquer idioma pressupõe a existência de muito conhecimento nos bastidores", diz Corrigan. “Mesmo [a palavra] roxo, assume que sabemos o que é roxo. Ou uma borboleta, [o computador] tem que entender a diferença entre uma borboleta e uma mariposa. Além disso, os próprios conjuntos de dados têm diferentes maneiras de pensar sobre esses diferentes termos. Todos esses dados têm sido difíceis de extrair sem uma frase de Rosetta. E isso faz parte da magia do que a EOL está fazendo ”.

Uma questão científica que a parceria entre EOL, IBM e Georgia Tech espera resolver é o paradoxo do plâncton.

De acordo com Hammock, cientistas que trabalham com simulações de computador “tentam modelar o que acontece no oceano dizendo que o sol brilha e as algas crescem. . . tem uma aproximação aproximada mas eles não conseguem que o [modelo de computador do ecossistema] seja estável. Eles vão por um tempo e depois caem. Porque eles são muito simples. Eles esperam que, se puderem mostrar um pouco mais de diversidade em sua biosfera modelada, eles se tornem mais estáveis. . . .o paradoxo sendo: como a biosfera oceânica existe? Por que não falha?

"As pessoas estão sentadas sobre os dados", diz Corrigan. “Há reservatórios incríveis de medições de biodiversidade em todo o planeta. Recebo muitos telefonemas de pessoas que estão sentadas sobre esses dados e querem ajuda para colocá-las em um contexto mais amplo. É importante porque estamos em uma corrida para estudar este planeta e aprender como nosso desenvolvimento está enfatizando nossos recursos finitos. . . O Smithsonian pode desempenhar um papel no aumento do conhecimento de todas essas fontes e ser um verdadeiro poder para difundi-lo ”.

Um quarto do subsídio de US $ 1 milhão será concedido à Smithsonian por sua participação no trabalho, mas a EOL inclui muitos outros participantes. Alguns desenvolvedores estão no Egito; uma equipe de educação é baseada em Harvard; e a unidade de língua espanhola fica na Cidade do México.

Todos os dados do EOL continuarão a ser de domínio público ou licenciados sob Creative Commons. A pesquisa e os dados destinam-se a ser publicamente acessíveis e não escondidos por trás de um paywall.

"É um sonho muito antigo", diz Hammock. “Um humano provavelmente não pode aprender tudo. É difícil colocar tudo em um lugar onde ele possa ser verificado conscientemente. Mas agora nós temos computadores. ”

Plínio ficaria muito satisfeito ou muito ciumento.

Big Data ficou maior como o Watson da IBM encontra a Encyclopedia of Life