Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

대규모 언어 모델, IMO 2025에서 기대치 미달: 메달 수준 성능 여전히 어려워

2025-07-19

연구원들은 MathArena 플랫폼을 사용하여 5가지 최첨단 대규모 언어 모델(LLM)을 2025년 국제 수학 올림피아드(IMO) 문제에 대해 평가했습니다. Gemini 2.5 Pro가 가장 좋은 성능을 보였지만, 점수는 겨우 31%(13점)에 그쳐 동메달에 필요한 19점에는 훨씬 못 미쳤습니다. 다른 모델들은 더욱 크게 뒤처졌습니다. 최고 32개 중 하나를 선택하는 전략을 통해 문제당 여러 답변을 생성하고 평가하여 계산 비용이 크게 증가했습니다. 그럼에도 불구하고 결과는 현재 LLM과 IMO와 같은 매우 어려운 수학 문제에서의 메달 수준 성능 사이에 큰 격차가 있음을 보여주며, 상당한 계산 자원을 투입해도 메달 수준에 도달하지 못했습니다. 질적인 분석에서는 존재하지 않는 정리를 인용하거나 매우 간결한 답변을 하는 등의 문제가 드러났습니다.

(matharena.ai)

AI 국제 수학 올림피아드