MathArena: Strenge Bewertung von LLMs bei Mathematik-Wettbewerben
MathArena ist eine Plattform zur Bewertung großer Sprachmodelle (LLMs) bei aktuellen Mathematik-Wettbewerben und -Olympiaden. Sie gewährleistet eine faire und unvoreingenommene Bewertung, indem sie Modelle ausschließlich auf Wettbewerben nach ihrer Veröffentlichung testet und retroaktive Bewertungen potenziell durchgesickerter Daten vermeidet. Die Plattform veröffentlicht Ranglisten für jeden Wettbewerb, die die Punktzahlen einzelner Probleme für verschiedene Modelle anzeigen, sowie eine Haupttabelle, die die Leistung über alle Wettbewerbe hinweg zusammenfasst. Jedes Modell wird viermal pro Problem ausgeführt, wobei der Durchschnittswert und die Kosten (in USD) berechnet werden. Der Bewertungscode ist Open Source: https://github.com/eth-sri/matharena.