대규모 언어 모델, Set 게임에서 실패, 추론 모델 승리

2025-02-19
대규모 언어 모델, Set 게임에서 실패, 추론 모델 승리

대규모 언어 모델(LLM)의 추론 능력을 카드 게임 Set에서 테스트하는 실험이 진행되었습니다. Set은 12장의 카드에서 모양, 색깔, 숫자, 음영에 대한 특정 규칙에 따라 3장의 카드 세트를 식별하는 게임입니다. GPT-4o, Sonnet-3.5, Mistral 등의 LLM은 일관되게 정확한 세트를 식별하지 못하고, 종종 잘못된 조합을 제안하거나 세트가 없다고 주장했습니다. 그러나 DeepThink-R1, o3-mini 등의 새로운 추론 모델은 문제를 성공적으로 해결하여 뛰어난 논리적 추론 능력을 보여주었습니다. 이는 LLM이 자연어 처리에서는 뛰어나지만 복잡한 논리적 과제에는 한계가 있음을 보여주는 반면, 전문적인 추론 모델이 명확한 이점을 가짐을 시사합니다.