MathArena: 수학 경진대회에서 LLM을 엄격하게 평가하는 플랫폼

2025-04-02

MathArena는 최신 수학 경진대회와 올림피아드에서 대규모 언어 모델(LLM)의 성능을 평가하는 플랫폼입니다. 출시 후 경진대회에서만 모델을 테스트하여 공정하고 편향되지 않은 평가를 보장하고, 잠재적으로 유출된 데이터에 대한 사후 평가를 방지합니다. 각 경진대회의 순위표를 공개하고, 서로 다른 모델의 개별 문제 점수와 모든 경진대회의 성능을 요약한 메인 테이블을 제공합니다. 각 문제는 각 모델에서 4번 실행되며, 평균 점수와 모델 비용(USD)이 계산됩니다. 평가 코드는 오픈 소스입니다: https://github.com/eth-sri/matharena.