https://frosthead.com

Como Margaret Dayhoff trouxe a computação moderna para a biologia

Em 1984, a Fundação Nacional de Pesquisa Biomédica lançou um banco de dados on-line gratuito contendo mais de 283.000 seqüências de proteínas. Hoje, o Protein Information Resource permite que cientistas de todo o mundo tomem uma proteína desconhecida, comparem-na com as milhares de proteínas conhecidas no banco de dados e determinem as maneiras pelas quais ela é semelhante e diferente. A partir desses dados, eles podem rapidamente e com precisão deduzir a história evolutiva de uma proteína e sua relação com várias formas de vida.

As origens humildes deste enorme banco de dados online começam muito antes da internet. Tudo começou com o Atlas de Sequência de Proteína e Estrutura, um livro impresso de 1965 contendo as 65 seqüências de proteínas conhecidas, compiladas por uma mulher chamada Margaret Dayhoff. Para criar seu Atlas, a Dayhoff aplicou tecnologias computacionais de ponta para encontrar soluções para questões biológicas, ajudando a inaugurar um novo campo que hoje chamamos de bioinformática. Originalmente uma química, a Dayhoff aproveitou as tecnologias novas e em evolução da era da computação pós-Segunda Guerra Mundial para pioneirar ferramentas que químicos, biólogos e astrônomos poderiam usar no estudo interdisciplinar das origens da vida na Terra.

Dayhoff (em seguida, Margaret Oakley) nasceu na Filadélfia em 11 de março de 1925 para Ruth Clark, professora de matemática do ensino médio, e Kenneth Oakley, um pequeno empresário. Na idade de dez anos, sua família se mudou para Nova York. Lá, ela frequentou escolas públicas, tornando-se a oradora da Bayside High em 1942. Ela estudou na Washington Square College of New York University com uma bolsa de estudos, formando magna cum laude em matemática apenas três anos depois, em 1945.

Naquele mesmo ano, Dayhoff ingressou na Columbia University para obter seu doutorado em química quântica sob a orientação do proeminente químico e pesquisador de operações da Segunda Guerra Mundial, George Kimball. Sua aceitação foi uma raridade para a época. Depois da Segunda Guerra Mundial, mais homens entraram nas ciências, e a química tornou-se ainda mais dominada pelos homens do que na década anterior, com apenas cinco por cento dos doutorados em química indo para as mulheres, abaixo dos oito por cento.

Durante o período de Dayhoff na universidade, a Columbia era um foco de tecnologia de computação. Contava com alguns dos primeiros laboratórios de computação dos EUA e, em 1945, tornou-se o lar do Laboratório Científico IBM Watson, liderado pelo astrônomo WJ Eckert. O laboratório Watson serviu inicialmente como um centro de computação para os Aliados nos últimos meses da Segunda Guerra Mundial. Após a guerra, tornou-se um site para o desenvolvimento de alguns dos primeiros supercomputadores, incluindo a Calculadora Eletrônica de Seqüência Seletiva (SSEC), que Eckert mais tarde usou para calcular órbitas lunares para as missões Apollo.

Com essa tecnologia na ponta dos dedos, Dayhoff combinou seu interesse pela química com a computação por meio de máquinas de cartões perfurados - basicamente os primeiros computadores digitais. As máquinas permitiram que a Dayhoff automatizasse seus cálculos, armazenando um algoritmo em um conjunto de cartões e dados em outro. Usando a máquina, ela conseguiu processar cálculos com muito mais rapidez e precisão do que manualmente.

O assunto particular de interesse de Dayhoff eram compostos orgânicos policíclicos, que são moléculas que consistem em três ou mais átomos unidos em um anel próximo. Ela usou as máquinas de cartões perfurados para realizar um grande número de cálculos sobre as energias ressonantes das moléculas (a diferença entre a energia potencial de uma molécula de um estado específico e estado médio) para determinar a probabilidade de ligação molecular e distâncias de ligação.

Dayhoff formou-se com seu doutorado em química quântica em apenas três anos. A pesquisa que ela realizou como um estudante de pós-graduação foi publicada, com Kimball como coautor, em 1949 no Journal of Chemical Physics sob o título simples de Cálculo do Cartão Perfurado de Energias de Ressonância.

Também em 1948, Dayhoff se casou com Edward Dayhoff, um estudante de física experimental que conheceu em Columbia. Em 1952, os dois se mudaram para Washington, DC, onde Edward assumiu um posto no National Bureau of Standards e Dayhoff deu à luz sua primeira de duas filhas, Ruth. Dayhoff logo abandonou a pesquisa para se tornar uma mãe dona de casa para Ruth e sua filha mais nova, Judith, com exceção de um cargo de pós-doutorado de dois anos na Universidade de Maryland.

Quando ela voltou a pesquisar e começou a se candidatar a subsídios para financiar seu trabalho em 1962, ela foi recebida com um choque. Os Institutos Nacionais de Saúde rejeitaram um pedido de subsídio que listava Dayhoff como investigador principal, com a explicação de que “[Dayhoff] esteve fora do contato íntimo por algum tempo ... com essa área complicada e em rápida evolução”, como escreve o historiador Bruno Strasser. seu próximo livro Collecting Experiments: Making Big Data Biology . Esse tipo de subida íngreme para as mulheres que tiraram folga para criar os filhos é apenas uma das maneiras pelas quais as instituições científicas impediram - e continuam atrapalhando - o avanço das mulheres.

Apesar da falta de apoio do NIH, Dayhoff estava prestes a entrar na década mais importante de sua carreira. Em 1960, ela aceitou um convite fatídico de Robert Ledley, um biofísico pioneiro que ela conheceu através de seu marido, para se juntar a ele na Fundação Nacional de Pesquisa Biomédica em Silver Spring, Maryland. Ledley sabia que as habilidades de computação de Dayhoff seriam cruciais para o objetivo da fundação de combinar os campos da computação, biologia e medicina. Ela atuaria como diretora associada por 21 anos.

Uma vez em Maryland, Dayhoff teve liberdade de uso para o novíssimo mainframe IBM 7090 da Universidade de Georgetown. O sistema IBM foi projetado para lidar com aplicativos complexos, com velocidade de computação seis vezes mais rápida que os modelos anteriores. Essa velocidade foi alcançada com a substituição da tecnologia de tubos de vácuo mais volumosos e mais lentos por transistores mais rápidos e eficientes (os componentes que produzem os 1s e os 0s dos computadores). Usando o mainframe, Dayhoff e Ledley começaram a procurar e comparar seqüências de peptídeos com programas FORTRAN que eles mesmos escreveram na tentativa de montar seqüências parciais em uma proteína completa.

IBM 7090 Console do operador IBM 7090 no Centro de Pesquisas Ames da NASA em 1961, com dois bancos de unidades de fita magnética IBM 729. (NASA)

O compromisso de Dayhoff e Ledley de aplicar a análise de computadores à biologia e à química era incomum. “A cultura da análise estatística, muito menos da computação digital, era completamente estranha à maioria dos [bioquímicos]”, explica Strasser em entrevista ao Smithsonian.com . “Alguns até se orgulhavam de não serem 'teóricos', que é como eles entendiam a análise de dados usando modelos matemáticos.”

Uma disciplina científica em que o conhecimento de computador de Dayhoff era mais apreciado, no entanto, era a astronomia. Esse interesse pela computação foi em parte graças a WJ Eckhart, que em 1940 usara máquinas de cartões perfurados da IBM para prever órbitas planetárias. E na década de 1960, o interesse americano na exploração espacial estava em pleno andamento, o que significava financiamento para a NASA. Na Universidade de Maryland, Dayhoff conheceu o espectroscopista Ellis Lippincott, que a levou a uma colaboração de seis anos com Carl Sagan em Harvard em 1961. Os três desenvolveram modelos termodinâmicos da composição química da matéria e Dayhoff criou um programa de computador que poderia calcular as concentrações de equilíbrio de gases em atmosferas planetárias.

Com o programa da Dayhoff, ela, Lippincott e Sagan foram capazes de escolher um elemento para analisar, permitindo-lhes investigar muitas composições atmosféricas diferentes. Em última análise, eles desenvolveram modelos atmosféricos para Vênus, Júpiter, Marte e até mesmo uma atmosfera primordial da Terra.

Ao explorar os céus, Dayhoff também pegou uma questão que os pesquisadores vinham explorando desde pelo menos a década de 1950: qual é a função das proteínas? Seqüenciar proteínas era um meio de obter a resposta, mas o sequenciamento de proteínas individuais era altamente ineficiente. Dayhoff e Ledley adotaram uma abordagem diferente. Em vez de analisar as proteínas isoladamente, eles compararam proteínas derivadas de diferentes espécies de plantas e animais. "Ao comparar as seqüências da mesma proteína em diferentes espécies, pode-se observar quais partes da seqüência foram sempre idênticas em todas as espécies, uma boa indicação de que essa parte da seqüência era crucial para o bem da proteína", diz Strasser.

Dayhoff sondou mais fundo, olhando para a história compartilhada das proteínas. Ela analisou não apenas as partes que eram as mesmas entre as espécies, mas também suas variações. “Eles tomaram essas diferenças como uma medida das distâncias evolutivas entre as espécies, o que lhes permitiu reconstruir árvores filogenéticas”, explica Strasser.

A Dayhoff, sempre pronta para aproveitar o poder da nova tecnologia, desenvolveu métodos computadorizados para determinar sequências de proteínas. Ela fez uma análise computadorizada de proteínas em uma ampla variedade de espécies, do fungo candida à baleia. Então ela usou suas diferenças para determinar seus relacionamentos ancestrais. Em 1966, com a ajuda de Richard Eck, Dayhoff criou a primeira reconstrução de uma árvore filogenética.

Em um artigo de 1969 da Scientific American, "Análise computacional da evolução de proteínas", Dayhoff apresentou ao público uma dessas árvores, juntamente com sua pesquisa usando computadores para sequenciamento de proteínas. "Cada seqüência de proteína que é estabelecida, cada mecanismo evolucionário que é iluminado, cada grande inovação na história filogenética que é revelada irá melhorar a nossa compreensão da história da vida", escreveu ela. Ela estava tentando mostrar à comunidade de ciências da vida o potencial dos modelos computadorizados.

Seu próximo objetivo era coletar todas as proteínas conhecidas em um lugar onde os pesquisadores pudessem encontrar sequências e compará-las a outras. Ao contrário de hoje, quando é fácil chamar fontes em um banco de dados eletrônico com apenas uma palavra-chave, a Dayhoff teve que vasculhar diários físicos para encontrar as proteínas que estava procurando. Em muitos casos, isso significava verificar o trabalho do pesquisador em busca de erros. Mesmo com o auxílio de um computador, o trabalho de coletar e catalogar as sequências exigia muito tempo e um olhar científico criterioso.

Nem todo mundo viu valor no que ela estava fazendo. Para outros pesquisadores, o trabalho de Dayhoff se assemelha ao trabalho de coleta e catalogação da história natural do século XIX, em vez do trabalho experimental do cientista do século XX. "Coletar, comparar e classificar as coisas da natureza parecia antiquado para muitos biólogos experimentais na segunda metade do século 20", diz Stasser. Ele se refere a Dayhoff como um "outsider". "Ela contribuiu para um campo que não existia e, portanto, não tinha reconhecimento profissional", diz ele.

Em 1965, Dayhoff publicou pela primeira vez sua coleção das 65 proteínas conhecidas no Atlas de Seqüência e Estrutura de Proteína, uma versão impressa de seu banco de dados. Eventualmente, os dados foram transferidos para a fita magnética, e agora ela vive on-line, onde os pesquisadores continuam a usar seus dados para encontrar milhares de proteínas. Outras bases de dados biomédicas se juntaram à briga, incluindo o Protein Data Bank, uma coleção colaborativa de proteínas e ácidos nucléicos lançada em 1971, e o GenBank, o banco de dados de seqüências genéticas lançado em 1982. A Dayhoff iniciou uma revolução científica.

"Hoje, cada publicação em biologia experimental contém uma combinação de novos dados experimentais e inferências extraídas de comparações com outros dados disponibilizados em um banco de dados público, uma abordagem que a Dayhoff iniciou há meio século", diz Strasser.

Como a bioinformática cresceu, as tarefas de coleta e computação caíram em grande parte para as mulheres. Os colaboradores da Dayhoff no Atlas eram todas mulheres, exceto Ledley. Assim como as mulheres "computadores" da Nasa nos anos 1960 e as decifradoras da Segunda Guerra Mundial, essas mulheres logo foram empurradas para as margens da prática científica. Referindo-se às “garotas ENIAC” que programaram o primeiro computador digital de propósito geral, a historiadora da computação Jennifer Light escreve que “é dentro dos limites de tais classificações ocupacionais de baixo status que as mulheres estão envolvidas em um trabalho sem precedentes”.

Em seu esboço biográfico de Dayhoff, Lois T. Hunt, que trabalhou no Atlas com ela, escreveu que Dayhoff acreditava que sua investigação sobre a atmosfera primordial da Terra poderia lhe dar "os compostos necessários para a formação da vida". computação, é o que liga as partes díspares da pesquisa científica da Dayhoff. Da minúscula proteína à vasta atmosfera, Dayhoff procurava os segredos da emergência da vida neste planeta. Embora ela não tenha desbloqueado todos eles, ela deu à ciência moderna as ferramentas e métodos para continuar a busca.

Como Margaret Dayhoff trouxe a computação moderna para a biologia