https://frosthead.com

Como o Google mantém seu spam fora da sua caixa de entrada

Por trás de todo o processamento de informações do Google - desde descobrir quais resultados de pesquisa são os mais importantes, até ler e manter o controle de seu e-mail -, há alguma matemática interessante. E recentemente, Javier Tordable, um engenheiro de software, fez uma apresentação sobre o assunto, abrindo uma janela para o nerd mundo do Google.

Vamos começar com o Gmail. Às vezes você recebe e-mails de spam, mas o Gmail é muito bom em descobrir que, quando um correspondente está tentando convencer você a investir em um príncipe nigeriano, você provavelmente não quer esse trecho de correspondência em sua caixa de entrada. Como isso sabe? Primeiro passo: treine a máquina. Etapa dois: coloque-o para funcionar.

Chama-se aprendizado de máquina e o Google está fazendo uma tonelada disso. No primeiro passo, você precisa fazer o que os cientistas da computação chamam de "caracterizar uma instância". Em matemática, isso significa:

Em geral, as características de uma instância podem ser consideradas como elementos em um vetor de um espaço euclidiano dimensional para um n grande (100-1000 dimensões é normal, 1M-10M não é inédito)

Mas aqui está como pensar sobre isso se você parou de usar o Calc 1. O Gmail pode extrair algumas informações importantes de qualquer email em particular. Quanto tempo é isso? Quantas letras maiúsculas existem? É de alguém que você recebeu um e-mail de antes? Você não quer que as informações necessárias para tomar a decisão sejam muito difíceis de obter ou lidar, porque isso diminuirá a velocidade e diminuirá a precisão da sua máquina. Então, o Google traça uma linha, com base no que sabe sobre spam. Os e-mails transmitidos caem de um lado da linha e os e-mails do outro.

Mais matemática fala:

Um modelo de classificação simples é um hiperplano no espaço de características. As instâncias de dados em um lado do hiperplano são classificadas como e-mails válidos e as instâncias do outro lado são classificadas como spam.

E quanto à pesquisa por voz - também chamada de reconhecimento automático de fala ou ASR? Como o aprendizado de máquina, o ASR acontece em duas partes: processando o som e descobrindo o que você está dizendo. A primeira parte envolve as transformadas de Fourier, que isolam os bits importantes que o computador pode traduzir. A segunda parte é a modelagem de fala usando o que é chamado de “modelo escondido de Markov”. Tordable explica:

Neste modelo, os estados são as letras da mensagem e a seqüência de eventos é o sinal sonoro. O algoritmo de Viterbi pode ser usado para obter a seqüência de estados de máxima verossimilhança.

O Google adoraria tornar o reconhecimento de voz melhor e mais fácil. Neste estudo de caso, um grupo de whizzes do Google escreve:

Um objetivo do Google é disponibilizar o acesso falado de maneira onipresente. Gostaríamos de deixar o usuário escolher - eles devem ter a certeza de que a interação falada é sempre uma opção. Alcançar a ubiquidade requer duas coisas: disponibilidade (isto é, embutida em toda interação possível em que a entrada ou saída de fala pode fazer sentido) e desempenho (ou seja, funciona tão bem que a modalidade não acrescenta atrito à interação).

Outra área em que o Google usa a matemática está em seus mapas - os holofotes recentemente depois que a Apple estreou seu sistema de mapeamento para críticas consideráveis. No coração do Google Maps está a teoria básica dos gráficos - a matemática de ir de um lugar para outro enquanto viaja pela menor distância. Mas, claro, é mais complexo que isso. Tordable escreve: "Um problema único é que os gráficos usados ​​no Google Maps contêm milhões de nós, mas os algoritmos precisam ser executados em milissegundos".

O Google não nos diz como eles fazem isso. Caso contrário, a Apple não teria encontrado o problema, mas os fundamentos envolvem a remoção do algoritmo de Dijsktra (provavelmente o algoritmo de busca de gráfico mais comumente usado). Alguns anos atrás, cientistas da computação da Universidade de Karlsruhe descreveram uma nova maneira de classificar as consultas de caminho para obter resultados muito mais rápidos. Eles escreveram:

Nosso algoritmo pré-processa o número de oito dígitos de nós necessários para mapas dos EUA ou Europa Ocidental em poucas horas usando espaço linear. As consultas de caminho mais curtas (ou seja, mais rápidas) demoram cerca de oito milissegundos para produzir os caminhos mais curtos exatos. Isso é cerca de 2.000 vezes mais rápido que o uso do algoritmo de Dijkstra.

A Tordable utiliza várias outras ferramentas matemáticas usadas pelo Google, incluindo as que estão envolvidas no Google Livros, nas Pesquisas de Imagens, no Google Analytics, no YouTube, no Google Tradutor, no Google Earth e no Picasa. Você pode ver todo o conjunto de slides aqui.

Mais de Smithsonian.com:

Smithsonian Obtém Google Mapeado
Acompanhe as tendências de alimentos com o Google Livros

Como o Google mantém seu spam fora da sua caixa de entrada