Modelos de linguagem de grande porte ficam aquém na IMO 2025: o desempenho em nível de medalha permanece difícil
Pesquisadores avaliaram cinco modelos de linguagem de grande porte (LLMs) de última geração nos problemas da Olimpíada Internacional de Matemática (IMO) de 2025 usando a plataforma MathArena. O Gemini 2.5 Pro teve o melhor desempenho, atingindo apenas uma pontuação de 31% (13 pontos), muito abaixo dos 19 pontos necessários para uma medalha de bronze. Outros modelos ficaram significativamente atrás. Uma estratégia de seleção melhor-de-32, gerando e avaliando várias respostas por problema, aumentou significativamente o custo computacional. Apesar disso, os resultados demonstram uma lacuna substancial entre os LLMs atuais e o desempenho em nível de medalha em problemas matemáticos extremamente desafiadores como os da IMO, mesmo com recursos computacionais substanciais. A análise qualitativa revelou problemas como modelos citando teoremas inexistentes e fornecendo respostas excessivamente concisas.