Trinta matemáticos reuniram-se em Harvard nesta semana para avaliar provas apresentadas por sistemas de inteligência artificial. A iniciativa, organizada pelo projeto First Proof, submeteu quatro configurações de IA a dez problemas matemáticos que já tinham sido resolvidos por humanos, mas nunca divulgados publicamente.
O resultado divulgado na última semana mostrou que, em sete dos dez desafios, pelo menos uma das IAs produziu uma solução correta. As combinações testadas empregaram majoritariamente o GPT-5.5 Pro, presente em três das quatro configurações, e o Gemini 3.1 Pro Preview, do Google. Em uma das composições, o Claude Opus 4.7, da Anthropic, atuou como modelo secundário.
Algumas respostas foram avaliadas como sem falhas; em um dos casos, a solução da IA adotou uma abordagem distinta da usada por humanos e causou boa impressão entre os avaliadores.
Por que os matemáticos criaram seu próprio teste
O grupo decidiu elaborar um exame independente diante da insatisfação com as narrativas divulgadas por empresas de tecnologia. Pesquisadores apontam que anúncios corporativos sobre avanços são difíceis de verificar e que os modelos apresentam comportamentos inconsistentes, o que motivou a comunidade a estabelecer critérios próprios de avaliação.
Humanos como alpinistas, IA como saltadores
Entre os participantes, o medalhista Fields Terry Tao comparou a atuação de especialistas humanos à de alpinistas, que progridem passo a passo, definem metas intermediárias e cooperam. Por outro lado, segundo ele, as IAs atuariam como saltadores: capazes de alcançar resultados elevados de forma abrupta, mas sem a mesma elegância ou utilidade imediata quando fracassam.
O que a IA ainda não sabe fazer
Os matemáticos ressaltaram que a limitação mais relevante das IAs não está apenas em resolver enunciados, mas em escolher quais problemas merecem ser investigados. Tomada de decisão, intuição e compreensão do contexto maior da disciplina continuam sendo habilidades tipicamente humanas. A professora Lauren Williams, de Harvard, exemplificou com a pergunta sobre a cor média de uma pedra na Terra: válida, mas pouco interessante do ponto de vista científico — distinção que a IA não faria automaticamente.
Sébastien Bubeck, pesquisador da OpenAI, afirmou que os modelos podem encontrar soluções sem entender por que aquelas questões são relevantes dentro de um programa de pesquisa mais amplo.
Imagem: Divulgação
2.300 matemáticos assinam manifesto
Paralelamente aos testes, foi lançada a Declaração de Leiden, um manifesto internacional que já reúne mais de 2.300 signatários e estabelece diretrizes para uso ético e transparente da inteligência artificial na matemática. O documento reconhece o potencial das ferramentas, mas alerta para riscos, como a falta de atribuição de ideias utilizadas pelos modelos e a promoção seletiva de sucessos por empresas, sem transparência sobre falhas.
Contexto: o problema de 80 anos
Em maio, a OpenAI anunciou que um de seus modelos teria refutado uma conjectura atribuída a Paul Erdős que permanecia sem solução por cerca de 80 anos, resultado que foi descrito como notável por matemáticos como Noga Alon, de Princeton. O First Proof representa uma resposta coletivamente organizada da comunidade acadêmica: em vez de reagir a anúncios externos, pesquisadores passaram a definir e aplicar seus próprios padrões de verificação.
A experiência em Harvard já alimenta discussões sobre limites e usos das IAs na pesquisa matemática, ao mesmo tempo em que destaca a necessidade de critérios públicos e rigorosos para validar alegações de avanços.
Com informações de Olhardigital

Gudyê GR6 é editor-chefe e especialista em tendências musicais e entretenimento na GR6, a maior produtora de funk do Brasil. Com anos de experiência no mercado fonográfico, Gudyê lidera a equipe de conteúdo trazendo as últimas notícias sobre música, cultura urbana. Autor do Post: Gudyê GR6