Webtagr - Sumário de Notícias de Tecnologia

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

Modelos de linguagem de grande porte ficam aquém na IMO 2025: o desempenho em nível de medalha permanece difícil

2025-07-19

Pesquisadores avaliaram cinco modelos de linguagem de grande porte (LLMs) de última geração nos problemas da Olimpíada Internacional de Matemática (IMO) de 2025 usando a plataforma MathArena. O Gemini 2.5 Pro teve o melhor desempenho, atingindo apenas uma pontuação de 31% (13 pontos), muito abaixo dos 19 pontos necessários para uma medalha de bronze. Outros modelos ficaram significativamente atrás. Uma estratégia de seleção melhor-de-32, gerando e avaliando várias respostas por problema, aumentou significativamente o custo computacional. Apesar disso, os resultados demonstram uma lacuna substancial entre os LLMs atuais e o desempenho em nível de medalha em problemas matemáticos extremamente desafiadores como os da IMO, mesmo com recursos computacionais substanciais. A análise qualitativa revelou problemas como modelos citando teoremas inexistentes e fornecendo respostas excessivamente concisas.

2025-04-02

MathArena é uma plataforma para avaliar modelos de linguagem grandes (LLMs) em competições e olimpíadas de matemática recentes. Garante uma avaliação justa e imparcial testando os modelos exclusivamente em competições pós-lançamento, evitando avaliações retroativas em dados potencialmente vazados. A plataforma publica tabelas de classificação para cada competição, mostrando as pontuações de problemas individuais para diferentes modelos, e uma tabela principal resumindo o desempenho em todas as competições. Cada modelo é executado quatro vezes por problema, obtendo-se a média da pontuação e calculando o custo (em USD). O código de avaliação é de código aberto: https://github.com/eth-sri/matharena.

Modelos de linguagem de grande porte ficam aquém na IMO 2025: o desempenho em nível de medalha permanece difícil

MathArena: Avaliando rigorosamente LLMs em competições de matemática