Putnam-AXIOM: Um novo benchmark que desafia a capacidade de raciocínio matemático de LLMs

2025-01-01

Pesquisadores apresentaram o Putnam-AXIOM, um benchmark desafiador composto por 236 problemas da William Lowell Putnam Mathematical Competition, projetado para avaliar as capacidades de raciocínio matemático de alto nível de modelos de linguagem grandes (LLMs). Para mitigar a contaminação de dados, um benchmark de variação com alterações funcionais de 52 problemas também foi criado. Os resultados mostram que mesmo os modelos de melhor desempenho experimentam uma queda significativa na precisão (cerca de 30%) nas variações em comparação com os originais, destacando espaço substancial para melhorias no raciocínio matemático de LLMs.

Leia mais