SOFTWARE CRIA UMA IMAGEM QUE DIZ TUDO

Todos os dias, os usuários carregam mais de 350 milhões de fotos no Facebook. Esse fluxo de imagens levou analistas a estimarem que 10% das 3, 5 trilhões de fotos do mundo foram tiradas no ano passado. Todos esses dados inundando a Web significam que, se você estiver procurando por uma imagem ou um objeto em particular - como é a aparência de um gato malhado laranja, por exemplo -, você ficará inundado de resultados de pesquisa.

No mês passado, pesquisadores da Universidade da Califórnia, em Berkeley, revelaram um novo software, o AverageExplorer, que permitirá aos usuários ver a imagem “média” que representa o que eles estão procurando. Em vez de uma imagem que vale mais que mil palavras, é uma imagem que vale mais que mil - ou mais - imagens.

"Quando você entra em uma busca de imagens do Google, você estará analisando páginas e páginas de imagens", explica Jun-Yan Zhu, estudante de pós-graduação da UC Berkeley e principal autor do artigo, apresentado na Conferência e Exibição Internacional sobre Computação Gráfica deste ano. e técnicas interativas em Vancouver. “É enorme e difícil resumir; você não consegue ter uma noção do que está acontecendo. ”

Para sua oferta inicial, Zhu e sua equipe coletaram fotografias através das buscas de imagens no Flickr, Google e Bing. O software é de baixa potência o suficiente para rodar em um desktop comum e pode processar cerca de 10.000 imagens simultaneamente.

Os usuários refinam suas pesquisas de maneiras diferentes. Eles podem esboçar e colorir uma forma, semelhante ao desenho no Adobe Photoshop ou Illustrator, para aprimorar o resultado de imagem média. Por exemplo, colorir o fundo de uma imagem média da Torre Eiffel selecionará a imagem média para extrair apenas fotos tiradas à noite. Ou você pode desenhar linhas em ângulo para controlar a orientação de uma borboleta no composto.

Ao refinar as cores em uma imagem AverageExplorer da Bridge of Sighs, você pode alterar a cena do dia para o anoitecer para a noite. (Cortesia UC Berkeley)

Quando uma imagem média é criada, um processo que pode levar até um minuto, os usuários podem refinar ainda mais o resultado usando o que a equipe chama de Modo do Explorer. Nesse modo, clicar em uma determinada parte de uma imagem - digamos, o nariz de um gato - revelará outras opções ou refinamentos comuns para esse ponto - talvez narizes azuis ou pretos, ou arredondados em vez de angulares. Em um vídeo de demonstração, por exemplo, a equipe refinou uma imagem de crianças no colo do Papai Noel selecionando apenas imagens em que o Papai Noel tem um filho em cada braço.

Onde o sistema se tornará especialmente poderoso, diz Zhu, é como uma ferramenta para treinar algoritmos de visão computacional, como aqueles empregados pelos aplicativos Google Goggles ou Amazon Firefly, que podem identificar o que uma câmera está apontando. “No campo da visão computacional, as pessoas gastam muito dinheiro para anotar objetos”, explica ele. “Agora você pode aplicar a anotação à imagem média. A ideia é que você só precise trabalhar em uma imagem para propagar todas as imagens em um conjunto de dados. ”

Ao refinar os modos de um resultado de pesquisa, os pesquisadores podem encontrar raças específicas de gato, incluindo (da esquerda para a direita) Ragdoll, Siamese, Maine Coon e Sphinx. (Cortesia UC Berkeley)

Criar arte final é o fruto mais fácil para o AverageExplorer. A equipe inspirou-se em artistas de novas mídias, como Jason Salavon, que criou meticulosamente fotografias à mão. Ele também pode ser usado para criar um plug-in do Facebook que permite aos usuários mexer com a imagem média deles mesmos.

As aspirações dos pesquisadores são ainda mais amplas e impactantes. Os sociólogos poderiam usar o sistema para identificar e pesquisar tendências sociais; por exemplo, uma imagem média pode provar que as noivas geralmente ficam à direita do noivo em retratos de casamento. O AverageExplorer também pode ser uma ferramenta útil para analistas de mídia que tentam dissecar a cobertura da televisão - a postura de Stephen Colbert muda quando ele está falando sobre George W. Bush versus Barack Obama?

Ao permitir que os usuários interajam intuitivamente com dados visuais, em vez de se esforçarem para inserir a sequência correta de palavras-chave, os usuários poderão unir o que o consultor de Zhu e co-criador do AverageExplorer, Alexei Efros, chama de "gargalo da linguagem".

A equipe imagina um conjunto de ferramentas personalizadas projetadas para tarefas específicas e difíceis de articular. Um aplicativo de compras, por exemplo, permitiria que um usuário enviesasse a web por um par de saltos com a cor exata, a forma do salto e a altura que ela busca. Zhu visualiza uma ferramenta que se integra ao fluxo de trabalho de artistas de esboço da polícia, permitindo que uma testemunha pesquise bancos de dados faciais por recursos que combinem com o autor do crime e construa um retrato composto.

Uma versão básica do AverageExplorer será lançada neste outono.