Modelos de linguagem de grande porte ficam aquém na IMO 2025: o desempenho em nível de medalha permanece difícil

2025-07-19

Pesquisadores avaliaram cinco modelos de linguagem de grande porte (LLMs) de última geração nos problemas da Olimpíada Internacional de Matemática (IMO) de 2025 usando a plataforma MathArena. O Gemini 2.5 Pro teve o melhor desempenho, atingindo apenas uma pontuação de 31% (13 pontos), muito abaixo dos 19 pontos necessários para uma medalha de bronze. Outros modelos ficaram significativamente atrás. Uma estratégia de seleção melhor-de-32, gerando e avaliando várias respostas por problema, aumentou significativamente o custo computacional. Apesar disso, os resultados demonstram uma lacuna substancial entre os LLMs atuais e o desempenho em nível de medalha em problemas matemáticos extremamente desafiadores como os da IMO, mesmo com recursos computacionais substanciais. A análise qualitativa revelou problemas como modelos citando teoremas inexistentes e fornecendo respostas excessivamente concisas.

Leia mais

MathArena: Avaliando rigorosamente LLMs em competições de matemática

2025-04-02

MathArena é uma plataforma para avaliar modelos de linguagem grandes (LLMs) em competições e olimpíadas de matemática recentes. Garante uma avaliação justa e imparcial testando os modelos exclusivamente em competições pós-lançamento, evitando avaliações retroativas em dados potencialmente vazados. A plataforma publica tabelas de classificação para cada competição, mostrando as pontuações de problemas individuais para diferentes modelos, e uma tabela principal resumindo o desempenho em todas as competições. Cada modelo é executado quatro vezes por problema, obtendo-se a média da pontuação e calculando o custo (em USD). O código de avaliação é de código aberto: https://github.com/eth-sri/matharena.

Leia mais