Para os humanos, o xadrez pode levar uma vida inteira para dominar. Mas o novo programa de inteligência artificial do Google DeepMind, o AlphaZero, pode aprender a conquistar o conselho em questão de horas.
Com base no seu sucesso passado com a suíte AlphaGo - uma série de programas de computador projetados para jogar o jogo de tabuleiro chinês Go - o Google afirma que seu novo AlphaZero atinge um nível de "desempenho sobre-humano" não apenas em um jogo de tabuleiro, mas em três: xadrez e shogi (essencialmente, xadrez japonês). A equipe de cientistas e engenheiros da computação, liderada por David Silver, do Google, reportou suas descobertas recentemente na revista Science .
“Antes disso, com o aprendizado de máquina, você poderia ter uma máquina para fazer exatamente o que você quer - mas apenas isso”, diz Ayanna Howard, especialista em computação interativa e inteligência artificial do Instituto de Tecnologia da Geórgia que não participou da pesquisa. “Mas o AlphaZero mostra que você pode ter um algoritmo que não é tão específico e pode aprender dentro de certos parâmetros.”
A programação inteligente do AlphaZero certamente aumenta a aposta na jogabilidade tanto para humanos quanto para máquinas, mas o Google há muito tempo se concentra em algo maior: inteligência de engenharia.
Os pesquisadores têm o cuidado de não afirmar que AlphaZero está à beira da dominação do mundo (outros foram um pouco mais rápidos em pular a arma). Ainda assim, Silver e o resto do esquadrão da DeepMind já estão esperançosos de que algum dia verão um sistema similar aplicado ao design de drogas ou à ciência dos materiais.
Então, o que torna o AlphaZero tão impressionante?
A jogabilidade tem sido reverenciada como um padrão de ouro na pesquisa de inteligência artificial. Jogos interativos e estruturados são simplificações de cenários do mundo real: decisões difíceis devem ser tomadas; vitórias e derrotas aumentam as apostas; e previsão, pensamento crítico e estratégia são fundamentais.
Codificar esse tipo de habilidade é complicado. Antigas AIs de jogos - incluindo os primeiros protótipos do AlphaGo original - têm sido tradicionalmente carregadas de códigos e dados para imitar a experiência normalmente obtida em anos de jogabilidade humana e natural (essencialmente, um despejo de conhecimento passivo derivado do programador). Com AlphaGo Zero (a versão mais recente do AlphaGo), e agora AlphaZero, os pesquisadores deram ao programa apenas uma entrada: as regras do jogo em questão. Então, o sistema se agachou e aprendeu ativamente os truques do próprio comércio.
O AlphaZero é baseado no AlphaGo Zero, parte da suíte AlphaGo projetada para jogar o jogo de tabuleiro chinês Go, na foto acima. As primeiras iterações do programa original foram alimentadas com dados de jogos humanos versus humanos; versões posteriores envolvidas no auto-ensino, em que o software jogou jogos contra si mesmo para aprender sua própria estratégia. (Chade Miller / Flickr / CC BY-SA 2.0)Essa estratégia, chamada de aprendizado por reforço self-play, é exatamente o que parece: para treinar para as grandes ligas, o AlphaZero se reproduz em iteração após a iteração, aprimorando suas habilidades por tentativa e erro. E a abordagem da força bruta compensou. Ao contrário do AlphaGo Zero, o AlphaZero não joga apenas o Go: ele pode vencer os melhores IAs do mercado no xadrez e no shogi também. O processo de aprendizado também é impressionantemente eficiente, exigindo apenas duas, quatro ou 30 horas de auto-ajuda para superar programas especificamente adaptados para dominar shogi, xadrez e Go, respectivamente. Notavelmente, os autores do estudo não relataram quaisquer casos de AlphaZero indo cabeça-a-cabeça com um ser humano real, diz Howard. (Os pesquisadores podem ter presumido que, dado que esses programas consistentemente estrobam suas contrapartes humanas, tal confronto teria sido inútil.)
AlphaZero também conseguiu derrotar Stockfish (o agora destemido mestre de xadrez de IA) e Elmo (o ex-especialista em IA shogi), apesar de avaliar menos possíveis próximos movimentos em cada turno durante o jogo. Mas como os algoritmos em questão são inerentemente diferentes e podem consumir quantidades diferentes de energia, é difícil comparar diretamente o AlphaZero com outros programas mais antigos, aponta Joanna Bryson, que estuda inteligência artificial na Universidade de Bath, no Reino Unido, e fez não contribui para o AlphaZero.
O Google mantém muitas informações detalhadas sobre seu software, e o AlphaZero não é uma exceção. Embora não saibamos tudo sobre o consumo de energia do programa, o que está claro é o seguinte: o AlphaZero tem que estar empacotando alguma munição computacional séria. Nessas poucas horas de treinamento, o programa se mantinha muito ocupado, participando de dezenas ou centenas de rodadas de prática para fazer com que sua estratégia de jogo de tabuleiro chegasse ao máximo - muito mais do que um jogador humano precisaria (ou, na maioria dos casos, até realizar) em busca de proficiência.
Esse regime intensivo também usou 5.000 unidades de processador de aprendizagem de máquina proprietárias do Google, ou TPUs, que, segundo algumas estimativas, consomem cerca de 200 watts por chip. Não importa como você o faça, o AlphaZero requer muito mais energia que um cérebro humano, que gira em torno de 20 watts.
O consumo absoluto de energia do AlphaZero deve ser levado em consideração, acrescenta Bin Yu, que trabalha na interface de estatística, aprendizado de máquina e inteligência artificial na Universidade da Califórnia, em Berkeley. O AlphaZero é poderoso, mas pode não ser bom para o investimento - especialmente quando se adiciona a hora da pessoa que entrou em sua criação e execução.
Energeticamente caro ou não, AlphaZero faz um respingo: a maioria dos IAs é hiperespecializada em uma única tarefa, tornando este novo programa - com sua tripla ameaça de jogo - extremamente flexível. “É impressionante que o AlphaZero tenha usado a mesma arquitetura em três jogos diferentes”, diz Yu.
Então sim. A nova IA do Google estabelece uma nova marca de várias maneiras. É rápido. É poderoso. Mas isso faz com que seja inteligente?
É aí que as definições começam a ficar turvas. "O AlphaZero foi capaz de aprender, começando do zero, sem qualquer conhecimento humano, a jogar cada um desses jogos em nível sobre-humano", disse Silver, da DeepMind, em comunicado à imprensa.
Mesmo que a perícia em jogos de tabuleiro requeira acuidade mental, todos os proxies para o mundo real têm seus limites. Em sua iteração atual, AlphaZero maximiza vencendo jogos projetados por humanos - o que pode não garantir o rótulo potencialmente alarmante de "sobre-humanos". Além disso, se surpreendido com um novo conjunto de regras no meio do jogo, o AlphaZero pode ficar desconcertado. O cérebro humano real, por outro lado, pode armazenar mais de três jogos de tabuleiro em seu repertório.
Além do mais, comparar a linha de base do AlphaZero com uma tabula rasa (em branco) - como os pesquisadores fazem - é um exagero, diz Bryson. Os programadores ainda estão alimentando um pedaço crucial do conhecimento humano: as regras do jogo que está prestes a jogar. “Tem muito menos coisas do que antes”, acrescenta Bryson, “mas o mais fundamental é que ainda são dadas regras. Essas são explícitas.
E essas regras irritantes poderiam constituir uma muleta significativa. "Mesmo que esses programas aprendam como executar, eles precisam das regras da estrada", diz Howard. "O mundo está cheio de tarefas que não possuem essas regras."
Quando o push chega ao fim, AlphaZero é uma atualização de um programa já poderoso - o AlphaGo Zero, explica JoAnn Paul, que estuda inteligência artificial e sonhos computacionais no Instituto Politécnico da Virgínia e na Universidade Estadual e não esteve envolvido na nova pesquisa. AlphaZero usa muitos dos mesmos blocos de construção e algoritmos como AlphaGo Zero, e ainda constitui apenas um subconjunto de verdadeiros smarts. "Eu pensei que este novo desenvolvimento foi mais evolutivo do que revolucionário", acrescenta ela. “Nenhum desses algoritmos pode criar . Inteligência também é sobre narrativa. Está imaginando coisas que ainda não estão lá. Não estamos pensando nesses termos em computadores ”.
Parte do problema é que ainda não há consenso sobre uma verdadeira definição de “inteligência”, diz Yu - e não apenas no domínio da tecnologia. "Ainda não está claro como estamos treinando os seres que pensam criticamente, ou como usamos o cérebro inconsciente", acrescenta ela.
Até este ponto, muitos pesquisadores acreditam que provavelmente existem vários tipos de inteligência. E tocando em um longe de garante os ingredientes para outro. Por exemplo, algumas das pessoas mais inteligentes lá fora são terríveis no xadrez.
Com essas limitações, a visão de Yu sobre o futuro da inteligência artificial associa os seres humanos e as máquinas a uma espécie de coevolução. As máquinas certamente continuarão a se destacar em certas tarefas, explica ela, mas a entrada e a supervisão humana podem sempre ser necessárias para compensar as não-automatizadas.
Claro, não há como dizer como as coisas vão se desenrolar na arena da IA. Enquanto isso, temos muito a ponderar. "Esses computadores são poderosos e podem fazer certas coisas melhor do que um ser humano", diz Paul. "Mas isso ainda está aquém do mistério da inteligência."
Este artigo foi publicado originalmente na NOVA.