텍스트 어드벤처 게임에서의 LLM 평가: 새로운 접근 방식

2025-08-12

본 논문에서는 텍스트 어드벤처 게임에서 대규모 언어 모델(LLM)의 능력을 평가하는 새로운 방법을 제안합니다. 이 접근 방식은 턴 제한과 게임 내 업적을 설정하여 LLM이 이러한 제약 내에서 얼마나 진행할 수 있는지 측정합니다. 텍스트 어드벤처 게임의 높은 자유도와 분기 때문에 이 방법은 절대적인 성능 점수를 제공하는 것이 아니라 서로 다른 LLM 간의 상대적인 비교를 제공하는 것을 목표로 합니다. LLM에는 일련의 업적 목표와 이를 달성하기 위한 제한된 턴 수가 주어집니다. 최종 점수는 달성된 업적의 수를 기반으로 합니다. 강력한 LLM이라도 턴 제한 내에서 모든 분기를 탐색하는 것은 어렵기 때문에 점수는 절대적인 게임 기술이 아니라 상대적인 능력을 반영합니다.

(entropicthoughts.com)

arXivLabs: 커뮤니티와의 협업을 통한 arXiv 새로운 기능 개발

OpenSecret, Neon에서 PlanetScale로 마이그레이션: 데이터베이스 마이그레이션 스토리