Putnam-AXIOM: Ein neuer Benchmark, der die mathematischen Schlussfolgerungsfähigkeiten von LLMs auf die Probe stellt

2025-01-01
Putnam-AXIOM: Ein neuer Benchmark, der die mathematischen Schlussfolgerungsfähigkeiten von LLMs auf die Probe stellt

Forscher haben Putnam-AXIOM vorgestellt, einen anspruchsvollen Benchmark mit 236 Aufgaben aus dem William Lowell Putnam Mathematical Competition, der entwickelt wurde, um die Fähigkeiten großer Sprachmodelle (LLMs) im Bereich des mathematischen Hochleistungsdenkens zu evaluieren. Um Datenkontamination zu minimieren, wurde auch ein Variations-Benchmark mit funktionalen Änderungen an 52 Aufgaben erstellt. Die Ergebnisse zeigen, dass selbst die leistungsstärksten Modelle einen signifikanten Genauigkeitsverlust (ca. 30 %) bei den Variationen im Vergleich zu den Originalaufgaben aufweisen, was einen erheblichen Verbesserungsspielraum für das mathematische Schlussfolgern von LLMs aufzeigt.