Putnam-AXIOM: Ein neuer Benchmark, der die mathematischen Schlussfolgerungsfähigkeiten von LLMs auf die Probe stellt

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

Putnam-AXIOM: Ein neuer Benchmark, der die mathematischen Schlussfolgerungsfähigkeiten von LLMs auf die Probe stellt

2025-01-01

Forscher haben Putnam-AXIOM vorgestellt, einen anspruchsvollen Benchmark mit 236 Aufgaben aus dem William Lowell Putnam Mathematical Competition, der entwickelt wurde, um die Fähigkeiten großer Sprachmodelle (LLMs) im Bereich des mathematischen Hochleistungsdenkens zu evaluieren. Um Datenkontamination zu minimieren, wurde auch ein Variations-Benchmark mit funktionalen Änderungen an 52 Aufgaben erstellt. Die Ergebnisse zeigen, dass selbst die leistungsstärksten Modelle einen signifikanten Genauigkeitsverlust (ca. 30 %) bei den Variationen im Vergleich zu den Originalaufgaben aufweisen, was einen erheblichen Verbesserungsspielraum für das mathematische Schlussfolgern von LLMs aufzeigt.

(openreview.net)

KI Mathematisches Schließen

Mastodon Web-Anwendung benötigt JavaScript

Notion: Ihr All-in-One-Arbeitsbereich