https://frosthead.com

Um mecanismo de pesquisa que combina seus desenhos com fotografias não está muito longe

Algumas semanas atrás, eu estava em um shopping quando notei uma mulher carregando uma grande bolsa com uma alça de corda. Desde que eu estou no mercado para uma bolsa nova, eu pensei em perguntar onde ela conseguiu. Mas antes que eu pudesse fazer meu movimento, ela desapareceu em uma esquina. Quando cheguei em casa, tentei googlar a bolsa. Mas eu não sou fashionista e descobri que não tinha o vocabulário para descrever o que vi. "Bolsa de couro com alça de cordão" não estava certo. Nem era “bolsa com alça de corda” ou “bolsa com alça de cabo”. Eventualmente, desisti.

Agora, uma nova tecnologia visa ajudar as pessoas a procurar por coisas que não podem necessariamente descrever em palavras.

James Hays, um cientista da computação do Instituto de Tecnologia da Geórgia, criou um programa de computador capaz de combinar imagens desenhadas à mão com fotografias. Isso pode levar a um programa que pode combinar serviços de pesquisa de imagens da Internet, como o Imagens do Google, e encontrar fotografias que correspondam exatamente aos desenhos dos usuários.

"O objetivo é ser capaz de relacionar ou combinar fotos e esboços em qualquer direção, assim como um ser humano pode", diz Hays. “Um humano pode ver um esboço mal desenhado e descobrir qual foto ele parece combinar. Queremos ter o mesmo recurso computacionalmente ”.

Para criar o programa, Hays contratou cerca de 700 funcionários da Amazon Mechanical Turk, um mercado de crowdsourcing que combina trabalhadores com pessoas que precisam de tarefas. Sua equipe mostrou aos trabalhadores fotos de objetos e animais comuns, como esquilos, bules e bananas, permitindo que eles olhassem para a imagem por dois segundos. O trabalhador então desenharia o objeto da memória. A equipe acabou reunindo mais de 75.000 esboços de 12.500 objetos. Eles chamaram isso de "banco de dados esboçado".

O programa então analisou os esboços e combinou-os com a fotografia que mais se assemelhou. A tecnologia identificou a foto correta 37 por cento do tempo. Os humanos, em comparação, estavam corretos cerca de 54% das vezes. Embora 37% não pareçam impressionantes, na verdade é um grande salto para os computadores.

"Os seres humanos são tão surpreendentemente bons em visão, reconhecemos imagens sem esforço", diz Hays. "É realmente surpreendentemente difícil computacionalmente."

Um dos principais desafios para melhorar o programa é que a maioria das pessoas é um artista muito ruim. Como Hays e sua equipe escreveram em um artigo sobre o assunto, “Formas e escalas são distorcidas. Partes do objeto são caricaturadas (orelhas grandes em um elefante), antropomorfizadas (boca sorridente em uma aranha) ou simplificadas (membros em forma de palitos). ”

Historicamente, a pesquisa sobre como obter computadores para reconhecer esboços concentrou-se em coisas como a distribuição de linhas em um desenho, a direção em que as linhas vão ou onde estão os limites do desenho. Mas como os humanos apenas desenham o que é saliente para os humanos (os olhos, por exemplo, são sempre incluídos nos esboços, embora sejam relativamente pequenos), é importante que um computador “aprenda” como os esboços tendem a ser semelhantes e como eles tendem a seja diferente das fotografias. Para isso, o programa utiliza duas redes separadas, uma que avalia esboços, uma que avalia fotografias. Através da análise constante de um grande conjunto de dados, o programa pode “aprender” continuamente.

Hays e sua equipe planejam continuar melhorando o programa adicionando dados. Os avanços na aprendizagem de computadores também devem ajudar a melhorar as taxas de correspondência. A partir de agora, o programa tem uma taxa de correspondência relativamente alta ao comparar esboços a bancos de dados de fotos da Internet, incluindo o Flickr, embora seja difícil quantificar, diz Hays.

Além da pesquisa de imagens de bolsas que eu tanto necessito, o programa tem um número de usos potenciais menos frívolos. A polícia pode escanear esboços suspeitos e compará-los a um banco de dados de fotografias criminais. O programa pode ser usado por pessoas que falam e escrevem em qualquer idioma, ou não podem escrever nada.

"Um dos objetivos de entender os esboços é que eles são uma linguagem um pouco universal", diz Hays. “Não está ligado a uma linguagem escrita específica e nem sequer está ligado à alfabetização. [Um programa como este poderia trazer] acesso a informações sem linguagem escrita. ”

O programa também poderia ser usado artisticamente para criar cenas fotorrealistas a partir de esboços. Sempre imaginou morar em um castelo na lua? Desenhe, e o programa poderia um dia criar uma imagem de foto para você, juntando pedaços de outras imagens.

As informações coletadas por Hays e sua equipe também poderiam ajudar a resolver algumas questões de neurociência e psicologia, diz Hays.

“Esses pares de esboços de fotos estão dizendo algo sobre a percepção humana, sobre o que achamos que é importante, quais partes das imagens captam nossa atenção”, diz Hays. “De certa forma, esse banco de dados codifica isso muito bem. Pode haver algo a ser extraído disso, se você quiser falar algo sobre os humanos. ”

Um mecanismo de pesquisa que combina seus desenhos com fotografias não está muito longe