Modelos de linguagem de grande porte ficam aquém na IMO 2025: o desempenho em nível de medalha permanece difícil

2025-07-19

Pesquisadores avaliaram cinco modelos de linguagem de grande porte (LLMs) de última geração nos problemas da Olimpíada Internacional de Matemática (IMO) de 2025 usando a plataforma MathArena. O Gemini 2.5 Pro teve o melhor desempenho, atingindo apenas uma pontuação de 31% (13 pontos), muito abaixo dos 19 pontos necessários para uma medalha de bronze. Outros modelos ficaram significativamente atrás. Uma estratégia de seleção melhor-de-32, gerando e avaliando várias respostas por problema, aumentou significativamente o custo computacional. Apesar disso, os resultados demonstram uma lacuna substancial entre os LLMs atuais e o desempenho em nível de medalha em problemas matemáticos extremamente desafiadores como os da IMO, mesmo com recursos computacionais substanciais. A análise qualitativa revelou problemas como modelos citando teoremas inexistentes e fornecendo respostas excessivamente concisas.