대규모 언어 모델, IMO 2025에서 기대치 미달: 메달 수준 성능 여전히 어려워

2025-07-19

연구원들은 MathArena 플랫폼을 사용하여 5가지 최첨단 대규모 언어 모델(LLM)을 2025년 국제 수학 올림피아드(IMO) 문제에 대해 평가했습니다. Gemini 2.5 Pro가 가장 좋은 성능을 보였지만, 점수는 겨우 31%(13점)에 그쳐 동메달에 필요한 19점에는 훨씬 못 미쳤습니다. 다른 모델들은 더욱 크게 뒤처졌습니다. 최고 32개 중 하나를 선택하는 전략을 통해 문제당 여러 답변을 생성하고 평가하여 계산 비용이 크게 증가했습니다. 그럼에도 불구하고 결과는 현재 LLM과 IMO와 같은 매우 어려운 수학 문제에서의 메달 수준 성능 사이에 큰 격차가 있음을 보여주며, 상당한 계산 자원을 투입해도 메달 수준에 도달하지 못했습니다. 질적인 분석에서는 존재하지 않는 정리를 인용하거나 매우 간결한 답변을 하는 등의 문제가 드러났습니다.