Deep Blue, Deep Learning e Deep Seek
Do tabuleiro ao algoritmo: o xadrez como pano de fundo para a era da inteligência artificial

Em 1997, o então campeão mundial de xadrez, Garry Kasparov, vivenciou uma cena constrangedora: em uma das partidas mais inusitadas da história, diante das câmeras e de uma plateia de jornalistas, nerds e enxadristas (e até mesmo de sua mãe), levantou de supetão da cadeira e, abanando as mãos em completo inconformismo, cedeu derrota ao seu oponente. Outro enxadrista? Não. Deep Blue, um computador da IBM. Nem vinte anos se aram desde então, e num episódio recente em seu famoso podcast, Joe Rogan perguntou ao entrevistado Magnus Carlsen, o maior de todos os tempos do xadrez, se teria capacidade de vencer uma partida contra o seu próprio celular. Carlsen foi enfático: “sem chance!”. Nos dias de hoje, já não é mais novidade alguma que computadores tenham se tornado imbatíveis em jogos de tabuleiro. Mas, se em tão pouco tempo fomos da frustração de Kasparov à completa resignação de Carlsen, não é só a computadores mais rápidos que devemos atribuir tal feito, e sim, principalmente, à inteligência artificial (IA). Em um artigo recente, vimos que, de certa forma, xadrez e inteligência artificial estão relacionadas à Pesquisa Operacional. Para entendermos melhor essa relação, partimos de um exemplo. Querido leitor de Mais com Menos, papel e caneta na mão: quantas configurações possíveis podemos atingir em um tabuleiro de xadrez após cada jogador ter realizado apenas cinco movimentos cada?
Nem tente contar. 69.352.859.712.417. Quase 70 trilhões de possibilidades! Assim, após cinco decisões tomadas por um dos jogadores – quais movimentos realizar dada uma certa disposição das peças –, as possibilidades de jogo são, na prática, infinitas. Isso faz com que a mera listagem de sequências possíveis em um jogo completo seja impossível de ser registrada de maneira eficiente mesmo por supercomputadores. Para um número maior de jogadas, alguns desses números, chamados de números de Shannon (o matemático por trás desses cálculos), podem ser encontrados aqui. E essa foi justamente a façanha do Deep Blue, que não utilizou nenhum algoritmo de IA para derrotar o então campeão mundial, mas simplesmente a força-bruta, alavancada por um conjunto de artimanhas computacionais customizadas para enfrentar o enxadrista russo. O time de desenvolvimento do Deep Blue contava inclusive com a ajuda do Grande Mestre enxadrista Joel Benjamin, deixando clara a abordagem “sob medida” com a qual Deep Blue foi elaborado. Nesse caso, o “Deep” se refere à profundidade da árvore de decisões gerada pelo computador, capaz de calcular inúmeras ramificações que descrevem possíveis desenvolvimentos de uma partida após muitas jogadas. Esse processo é semelhante ao da Programação Dinâmica, discutido anteriormente aqui em Mais com Menos.
Para evitar a força-bruta, hoje, o que impera nos softwares de xadrez são as chamadas redes neurais. Lembram-se das funções compostas f∘g e g∘f dos tempos de escola? Pois então, como uma Matrioshka, a bonequinha russa, as redes neurais são formadas por diversas camadas consecutivas de composições de funções matemáticas finamente ajustadas e elaboradas de modo a transformarem um dado input – uma posição num tabuleiro de xadrez, por exemplo – em um output. No contexto do xadrez, esse output pode representar a melhor decisão a ser tomada por um dos jogadores. O famoso programa Stockfish, por exemplo, possui a chamada NNUE, uma rede neural de atualização eficiente, sendo capaz de gerar decisões rapidamente, com base apenas na última peça movimentada no tabuleiro. Essa rede neural, contudo, possui apenas duas ou três camadas de funções principais, o que faz com que seja uma rede neural relativamente rasa, ou seja, com pouca profundidade.
Se uma rede neural possui muitas camadas, a chamamos de profunda: e é esse atributo que justifica o “Deep” em Deep Learning (Aprendizado Profundo), outro buzzword de nossa época. Esse é o caso do Leela Chess Zero, software enxadrista baseado no projeto Alpha Zero do Google. Leela é constituída primariamente de uma rede neural profunda, com muitas e muitas camadas, e milhões de parâmetros responsáveis por conformar essas funções à tarefa de jogar xadrez o melhor possível. Esses parâmetros funcionam mais ou menos como um de botões que determina as relações de input e output da rede neural.
Esses botões são ajustados durante o processo de treinamento da rede neural, onde o tal aprendizado de máquina realmente ocorre. No caso do Stockfish, a rede neural aprende por meio de dados provenientes de jogos ados (o que chamamos de aprendizado supervisionado). Milhões de posições de tabuleiro e suas respectivas melhores jogadas são “mostradas” à rede neural que, em um processo de otimização, tem seu “ de controle” ajustado de modo a mapear corretamente uma posição a uma jogada. Quando apresentada uma posição anteriormente desconhecida, esse mesmo de controle, já otimizado, se encarrega de transformar a posição dada na melhor jogada possível.
Por outro lado, Leela aprende de forma diferente. Seus treinadores (programadores) deixam Leela jogar xadrez do zero, à vontade, sem nenhum conhecimento prévio. A cada partida, movimentos corretos são recompensados, enquanto “capivaradas” são punidas severamente. Assim, como uma criança aprendendo a andar ou um cachorrinho a sentar – e diferente de muito eleitor no Brasil –, após milhões de partidas, Leela aprende por experiência, ou seja, por reforço. Chamamos esse paradigma de Reinforcement Learning (RL).
Recentemente, o RL ganhou atenção midiática com o primeiro Large Language Model (LLM) supostamente treinado de forma ampla por reforço: o Deep Seek. Em termos comerciais, o Deep Seek, como diriam os americanos, “envelheceu como leite”. Banido completa ou parcialmente em países como Itália, Canadá, Coreia do Sul e Estados Unidos, o LLM chinês mostrou-se inicialmente muito promissor, mas muito questionável em relação à privacidade de dados do usuário. Suas opiniões altamente enviesadas em relação ao Partido Comunista e ao regime chinês também não agradaram a muitos nos países livres. Por aqui na terra do ChatGPT, Grok e Gemini, já mal se fala nele. Mas convenhamos: serviu a um bom propósito estilístico no título deste artigo!
A esta altura do campeonato, ficou claro que a IA já atingiu um ponto de não-retorno em nossas vidas. O xadrez, é claro, serve apenas de pano de fundo para a aplicação dessa técnica nos processos de tomada de decisão. Talvez não percebamos, mas a IA já nos rodeia desde muito antes das LLMs: nas plataformas de streaming (mapeando o que você gostou de assistir e dando recomendações de novos filmes e séries); no comércio eletrônico (sugerindo novos produtos com base em nosso histórico de compras); no mercado financeiro (decidindo quando um determinado ativo deve ser vendido ou comprado, baseado em seu histórico de preços e mercado); na logística empresarial (aprendendo, por reforço, qual é a rota mais rápida ou mais barata para a entrega de produtos), entre muitas outras aplicações.
O que assustou Kasparov na virada do milênio já não é mais páreo para um simples aplicativo de celular. A revolução na Pesquisa Operacional e nos processos econômicos e decisórios não será diferente. Mas não desanimemos, pois nosso papel nesse processo é exclusivo. Afinal de contas, o que é a IA senão a razão e a vontade próprias da inteligência humana, diluídas e codificadas em zeros e uns? A César o que é de César, a Deus o que é de Deus, e à IA… o que é da IA!
PS: Após o lançamento da minha coluna Mais com Menos aqui em VEJA e VEJA NEGÓCIOS, alguns leitores e eu temos testemunhado um número significativo de Tiktokers, YouTubers e tutti quanti, coincidentemente (ou não) gerando conteúdo de extrema similaridade com os meus textos. Fico contente em ajudar na popularização da Pesquisa Operacional e assuntos correlatos, até porque esse é mesmo o maior propósito desta coluna. Contudo, peço gentilmente aos criadores de conteúdo que, caso estejam se inspirando em ideias deste ou de outros artigos meus, incluam um link para a publicação original. Aos leitores, o meu mais sincero agradecimento pelo seu tempo e atenção. Aos meus divulgadores não-licenciados, agradeço também. Afinal, como dizia o poeta: “Imitation is the sincerest form of flattery.”
Referências
[1] https://www.ibm.com/history/deep-blue
[2] https://en.wikipedia.org/wiki/Shannon_number
- Gabriel Nicolosi é PhD em Engenharia Industrial e Pesquisa Operacional pela Pennsylvania State University e Professor de Engenharia de Gestão e de Sistemas na Missouri University of Science and Technology, nos Estados Unidos.