MathArena: Avaliando rigorosamente LLMs em competições de matemática
MathArena é uma plataforma para avaliar modelos de linguagem grandes (LLMs) em competições e olimpíadas de matemática recentes. Garante uma avaliação justa e imparcial testando os modelos exclusivamente em competições pós-lançamento, evitando avaliações retroativas em dados potencialmente vazados. A plataforma publica tabelas de classificação para cada competição, mostrando as pontuações de problemas individuais para diferentes modelos, e uma tabela principal resumindo o desempenho em todas as competições. Cada modelo é executado quatro vezes por problema, obtendo-se a média da pontuação e calculando o custo (em USD). O código de avaliação é de código aberto: https://github.com/eth-sri/matharena.