Putnam-AXIOM: LLM의 수학적 추론 능력을 평가하는 새로운 벤치마크
2025-01-01
연구자들은 윌리엄 로웰 퍼트넘 수학 경시대회 문제 236개로 구성된 까다로운 벤치마크인 Putnam-AXIOM을 발표했습니다. 이는 대규모 언어 모델(LLM)의 고급 수학적 추론 능력을 평가하기 위해 설계되었습니다. 데이터 오염을 줄이기 위해 52개 문제의 변형을 포함하는 벤치마크도 만들었습니다. 결과는 최고 성능 모델조차도 원래 문제와 비교했을 때 변형 문제에서 정확도가 약 30% 감소함을 보여주며, LLM의 수학적 추론 능력에 상당한 개선 여지가 있음을 강조합니다.
AI
수학적 추론