Uma nova rede neural desenvolvida por pesquisadores do Instituto de Tecnologia de Massachusetts (MIT) é capaz de construir uma aproximação aproximada do rosto de um indivíduo com base unicamente em um trecho de seu discurso, um artigo publicado em relatórios arXiv de servidores pré-impressos.
A equipe treinou a ferramenta de inteligência artificial - um algoritmo de aprendizado de máquina programado para "pensar" muito parecido com o cérebro humano - com a ajuda de milhões de clipes on-line que captam mais de 100.000 falantes diferentes. Chamada de Speech2Face, a rede neural usou esse conjunto de dados para determinar os links entre sinais vocais e características faciais específicas; como os cientistas escrevem no estudo, idade, sexo, formato da boca, tamanho dos lábios, estrutura óssea, linguagem, sotaque, velocidade e pronúncia são fatores que influenciam a mecânica da fala.
De acordo com Melanie Ehrenkranz, do Gizmodo, Speech2Face baseia-se em associações entre aparência e fala para gerar representações fotorrealistas de indivíduos de frente com expressões neutras. Embora essas imagens sejam genéricas demais para serem identificadas como pessoas específicas, a maioria delas identifica com precisão o sexo, a raça e a idade dos falantes.
Curiosamente, Jackie Snow explica para Fast Company, a nova pesquisa não só baseia-se em pesquisas anteriores sobre previsões de idade e sexo da fala, mas também holofotes links entre voz e "características craniofaciais", como estrutura do nariz.
Os autores acrescentam: "Isso é conseguido sem informações prévias ou com a existência de classificadores precisos para esses tipos de características geométricas refinadas".
Ainda assim, o algoritmo tem suas falhas. Como Mindy Weisberger, da Live Science, observa, o modelo tem dificuldade em analisar as variações de linguagem. Quando reproduziu um clipe de áudio de um asiático falando chinês, por exemplo, o Speech2Face produziu uma face da etnia correta, mas quando o mesmo indivíduo foi gravado falando inglês, a IA gerou a imagem de um homem branco.
Em outros casos, machos de alta frequência, incluindo crianças, foram identificados erroneamente como fêmeas, revelando o viés de gênero do modelo ao associar vozes de baixa frequência com homens e pessoas de voz aguda com mulheres. Dado o fato de que os dados de treinamento foram em grande parte derivados de vídeos educacionais postados no YouTube, os pesquisadores ainda apontam que o algoritmo falha em “representar igualmente toda a população mundial”.
De acordo com Jane C. Hu, do Slate, a legalidade de usar vídeos do YouTube para pesquisa científica é bastante clara. Tais clipes são considerados informações publicamente disponíveis; mesmo que um usuário copie seus vídeos, os cientistas podem incluir os materiais em seus experimentos sob uma cláusula de "uso justo".
Mas a ética dessa prática é menos direta. Falando com Hu, Nick Sullivan, chefe de criptografia da Cloudflare, disse que ficou surpreso ao ver uma foto sua em destaque no estudo da equipe do MIT, já que ele nunca assinou um documento ou ouviu diretamente dos pesquisadores. Embora Sullivan diga a Hu que teria sido "legal" ser notificado de sua inclusão no banco de dados, ele reconhece que, dado o tamanho do conjunto de dados, seria difícil para os cientistas alcançarem todos os participantes.
Ao mesmo tempo, Sullivan conclui: “Como minha imagem e voz foram apontadas como um exemplo no artigo do Speech2Face, em vez de apenas usadas como um ponto de dados em um estudo estatístico, teria sido educado entrar em contato para me informar ou pedir minha permissão.
Uma potencial aplicação real para o Speech2Face é usar o modelo para “anexar um rosto representativo” a ligações telefônicas com base na voz do interlocutor. Snow acrescenta que a tecnologia de reconhecimento de voz já é usada em vários campos - muitas vezes sem o conhecimento ou consentimento expresso dos indivíduos. No ano passado, o Chase lançou um programa de “ID de Voz” que aprende a reconhecer os clientes de cartão de crédito ligando para o banco, enquanto instituições correcionais em todo o país estão construindo bancos de dados de “impressões de voz” de indivíduos encarcerados.