https://frosthead.com

Como a Inteligência Artificial poderia revolucionar a pesquisa do Museu de Arquivamento

Quando você pensa em inteligência artificial, o campo da botânica provavelmente não é o mais importante em sua mente. Quando você visualiza configurações para pesquisas computacionais de ponta, museus seculares podem não estar no topo da lista. E, no entanto, um artigo recém publicado no Biodiversity Data Journal mostra que algumas das inovações mais empolgantes e portentosas no aprendizado de máquina estão ocorrendo em nada menos que o Herbário Nacional do Museu Nacional de História Natural em Washington, DC.

O artigo, que demonstra que as redes neurais digitais são capazes de distinguir entre duas famílias semelhantes de plantas com taxas de precisão bem acima de 90%, implica todo tipo de possibilidades de dar água na boca para cientistas e acadêmicos daqui para frente. O estudo baseia-se em software baseado em algoritmos de “aprendizado profundo”, que permitem que os programas de computador acumulem experiência da mesma maneira que os especialistas em humanos, aumentando o seu desempenho cada vez que eles correm. Logo, essa tecnologia poderia permitir análises comparativas de milhões de espécimes distintos de todos os cantos do globo - uma proposição que anteriormente exigiria uma quantidade insustentável de mão-de-obra humana.

"Essa direção de pesquisa mostra uma grande promessa", diz o professor de Stanford Mark Algee-Hewitt, uma voz proeminente no movimento de humanidades digitais e diretora assistente do Centro de Análise Espacial e Textual da universidade. "Esses métodos têm a capacidade de nos fornecer uma grande quantidade de informações sobre o que as coleções contêm", diz ele, e "ao fazê-lo, eles tornam esses dados acessíveis".

Essas novas descobertas se baseiam em anos de trabalho realizados na Smithsonian Institution para sistematicamente digitalizar suas coleções para acesso acadêmico e público on-line e representam um notável encontro interdisciplinar de mentes: botânicos, especialistas em digitalização e cientistas de dados todos tiveram um papel a desempenhar para trazer essas coleções. resultados à luz.

A história começa em outubro de 2015, quando a instalação de um equipamento de câmera e correia transportadora sob o Museu de História Natural simplificou muito os esforços para digitalizar a coleção botânica do Smithsonian. Em vez de ter que escanear manualmente todas as flores prensadas e pedaços de grama em seu repositório, os trabalhadores podiam fazer filas inteiras de amostras, deixar o cinturão fazer sua mágica e recuperá-los e catalogá-los no final. Uma tripulação de três pessoas supervisionou o cinto desde a sua estreia, e eles passam por cerca de 750.000 exemplares a cada ano. Em pouco tempo, o estoque de herbário do Smithsonian, cinco milhões de espécimes fortes, será totalmente on-line.

Cada espécime é marcado com um cartão de identificação completo, que fornece informações sobre sua proveniência, bem como dados estatísticos essenciais. Os conteúdos desses cartões foram transcritos e carregados junto com as imagens digitais, fornecendo uma visão abrangente de cada item da coleção para aqueles com a inclinação de pesquisar.

No arquivo botânico digitalizado do Smithsonian, imagens de alta resolução de espécimes são emparelhadas com transcrições das etiquetas de identificação úteis afixadas a eles. No arquivo botânico digitalizado do Smithsonian, imagens de alta resolução de espécimes são emparelhadas com transcrições das etiquetas de identificação úteis afixadas a eles. (Museu Nacional de História Natural)

“Isso torna nossa coleção acessível a qualquer pessoa que tenha um computador e uma conexão à Internet”, diz Laurence Dorr, “o que é ótimo para responder a certas perguntas”. Mesmo assim, Dorr descobriu que não conseguia se livrar de uma sensação de potencial inexplorado. . Claro, enormes quantidades de dados de espécimes estavam agora disponíveis para a comunidade online, mas analisá-las no total permaneceu fantasiosa. Procurar espécimes particulares e pequenas categorias de espécimes foi bastante fácil, mas Dorr se perguntou se existia uma maneira de alavancar os dados para tirar conclusões sobre milhares de espécimes. "O que você pode fazer com esses dados?", Ele se lembra de se perguntar. Um homem chamado Adam Metallo logo forneceu uma resposta convincente.

Metallo, um oficial do Gabinete do Programa de Digitalização do Smithsonian, participou de uma conferência na qual a gigante de tecnologia NVIDIA - queridinha de jogadores de PC em todos os lugares - estava exibindo unidades de processamento gráfico da próxima geração, ou GPUs. Metallo estava lá procurando maneiras de melhorar as capacidades de renderização digital 3D do Smithsonian, mas era uma pepita em grande parte não relacionada que chamou sua atenção e ficou com ele. Além de gerar visuais 3D dinâmicos de alta fidelidade, ele foi informado de que as GPUs da NVIDIA eram adequadas para a análise de big data. Em particular, as GPUs reforçadas eram exatamente o que era necessário para o reconhecimento intensivo de padrões digitais; muitos algoritmos de aprendizado de máquina foram otimizados para a plataforma NVIDIA.

Metallo ficou instantaneamente intrigado. Essa tecnologia de “aprendizado profundo”, já implantada em setores de nicho como o desenvolvimento autônomo e a radiologia médica, tinha grande potencial para o mundo dos museus - o que, como aponta o Metallo, constitui “o maior e mais antigo conjunto de dados a que agora temos acesso”. para."

"O que significa para os grandes conjuntos de dados que estamos criando no Smithsonian por meio da digitalização?", Metallo queria saber. Sua pergunta espelhava perfeitamente a de Laurence Dorr e, assim que os dois se conectaram, as faíscas começaram a voar. “A coleção de botânica foi uma das maiores coleções nas quais trabalhamos mais recentemente”, lembra Metallo. Uma colaboração sugeriu-se.

Enquanto muitas formas de aprendizado de máquina exigem que os pesquisadores sinalizem marcadores matemáticos importantes nas imagens a serem analisadas - um processo meticuloso que equivale a segurar a mão do computador - os algoritmos modernos de aprendizado profundo podem ensinar a si mesmos quais marcadores procurar no trabalho, economizando tempo e abrindo a porta para investigações de maior escala. No entanto, escrever um programa de aprendizagem profunda específico para o Smithsonian e calibrá-lo para questões de pesquisa botânica discretas era um assunto complicado - Dorr e Metallo precisavam da ajuda de cientistas de dados para tornar sua visão uma realidade.

Cientistas de dados compilam espécimes de treinamento para a rede neural durante o que Paul Frandsen lembra como Cientistas de dados compilam espécimes de treinamento para a rede neural durante o que Paul Frandsen lembra como "um dia frio de janeiro". (Museu Nacional de História Natural)

Um dos especialistas que trouxeram a bordo foi o cientista de dados de pesquisa do Smithsonian, Paul Frandsen, que imediatamente reconheceu o potencial da criação de uma rede neural baseada em GPU da NVIDIA para fazer valer a coleção de botânica. Para Frandsen, este projeto simbolizava um primeiro passo fundamental para um caminho maravilhoso e inexplorado. Em breve, ele diz, “começaremos a procurar padrões morfológicos em escala global, e poderemos responder a essas perguntas realmente grandes que tradicionalmente teriam levado milhares ou milhões de horas-humanas examinando a literatura e classificando as coisas. Nós vamos ser capazes de usar algoritmos para nos ajudar a encontrar esses padrões e aprender mais sobre o mundo. ”

As descobertas recém publicadas são uma impressionante prova de conceito. Gerado por uma equipe de nove liderada pelo botânico de pesquisa Eric Schuettpelz e pelos cientistas de dados Paul Frandsen e Rebecca Dikow, o estudo pretende responder a duas questões de grande escala sobre aprendizado de máquina e o herbário. A primeira é a eficácia de uma rede neural treinada na classificação de amostras manchadas de mercúrio em amostras imaculadas. O segundo, o destaque do artigo, é quão eficaz pode ser essa rede ao diferenciar membros de duas famílias superficialmente similares de plantas - a saber, as famílias de samambaias Lycopodiaceae e Selaginellaceae .

O primeiro teste exigiu que a equipe passasse por milhares de espécimes com antecedência, observando com certeza quais estavam visivelmente contaminados com mercúrio (um vestígio de técnicas de preservação botânica desatualizadas). Eles queriam ter certeza de que sabiam com 100 por cento de certeza quais estavam manchados e quais não eram - caso contrário, avaliar a precisão do programa não seria possível. A equipe selecionou quase 8.000 imagens de amostras limpas e mais 8.000 amostras manchadas para treinar e testar o computador. Quando terminaram de ajustar os parâmetros da rede neural e retiraram toda a assistência humana, o algoritmo estava categorizando amostras que nunca haviam visto antes, com 90% de precisão. Se os espécimes mais ambíguos - por exemplo, aqueles em que a coloração era mínima e / ou muito fraca - fossem descartados, esse número subiu para 94%.

Este resultado implica que o software de aprendizado profundo pode em breve ajudar os botânicos e outros cientistas a evitar o desperdício de tempo em tarefas tediosas de classificação. "O problema não é que um ser humano não possa determinar se um espécime é ou não corado com mercúrio", esclarece Metallo, mas sim que "é difícil classificar manualmente e descobrir onde a contaminação existe", e não é sensato faça isso do ponto de vista de gerenciamento do tempo. Felizmente, o aprendizado de máquina pode transformar um grande tempo em afundar em alguns dias de rápida análise automatizada.

Examinar os espécimes, um de cada vez, exige muita energia e torna difícil tirar conclusões em larga escala. Agora, a análise de big data oferece aos museus novas maneiras de abordar suas coleções. Examinar os espécimes, um de cada vez, exige muita energia e torna difícil tirar conclusões em larga escala. Agora, a análise de big data oferece aos museus novas maneiras de abordar suas coleções. (Arnold Arboretum)

A parte de discriminação de espécies do estudo é ainda mais excitante. Pesquisadores treinaram e testaram a rede neural com cerca de 9.300 amostras de clubmoss e 9.100 spikemoss. Assim como no experimento de coloração, cerca de 70% dessas amostras foram usadas na calibração inicial, 20% foram usadas para refinamento e os 10% finais foram usados ​​para avaliar a precisão formalmente. Uma vez que o código foi otimizado, a taxa de sucesso do computador na distinção entre as duas famílias foi de 96% - e quase 99%, se as amostras mais difíceis foram omitidas.

Um dia, especula Frandsen, programas como este poderiam lidar com a categorização preliminar de espécimes em museus em todo o mundo. “De maneira nenhuma eu acho que esses algoritmos farão qualquer coisa para substituir os curadores”, ele é rápido em notar, “mas em vez disso, eu acho que eles podem ajudar curadores e pessoas envolvidas em sistemática a serem mais produtivos, para que possam fazer seu trabalho mais rapidamente."

O sucesso da rede neural neste estudo também abre caminho para testes rápidos de hipóteses científicas em coleções massivas. Dorr vê nas descobertas da equipe a possibilidade de realizar extensivas comparações morfológicas de amostras digitalizadas - comparações que podem levar a descobertas científicas significativas.

Isso não quer dizer que a aprendizagem profunda será uma bala de prata na pesquisa. Mark Algee-Hewitt, de Stanford, salienta que “é quase impossível reconstruir por que e como uma rede neural toma suas decisões”, uma vez que tenha sido condicionada; As determinações deixadas aos programas de computador devem sempre ser descomplicadas e verificáveis ​​por natureza, se forem confiáveis.

“Obviamente, ” diz Dorr, um programa de computador autônomo “não vai testar relações genéticas, coisas assim” - pelo menos a qualquer momento no futuro próximo. “Mas podemos começar a aprender sobre a distribuição de características por região geográfica ou por unidade taxonômica. E isso vai ser muito poderoso.

Mais do que tudo, esta pesquisa é um ponto de partida. Está claro agora que a tecnologia de aprendizagem profunda é uma grande promessa para cientistas e outros acadêmicos em todo o mundo, bem como para o público curioso para o qual eles produzem conhecimento. O que resta é um rigoroso trabalho de acompanhamento.

“Este é um pequeno passo”, diz Frandsen, “mas é um passo que realmente nos diz que essas técnicas podem funcionar em espécimes de museus digitalizados. Estamos empolgados com a criação de vários outros projetos nos próximos meses, para testar um pouco mais seus limites ”.

Como a Inteligência Artificial poderia revolucionar a pesquisa do Museu de Arquivamento