Apple 논문, AI 추론 능력에 도전장: 진짜 '추론'이 아닌가?

2025-06-09

Apple의 최근 논문 "사고의 환상"은 하노이 탑 퍼즐을 이용해 대규모 언어 모델의 추론 능력을 테스트했다. 결과적으로 간단한 문제에서는 비추론 모델보다 성능이 떨어지고, 중간 난이도에서는 우수하지만, 복잡한 문제에서는 알고리즘이 제공되더라도 모델이 포기하는 것으로 나타났다. 저자들은 모델의 일반화 가능한 추론 능력에 의문을 제기한다. 하지만 이 글에서는 논문에서 사용된 하노이 탑 퍼즐이 테스트로 부적절하다고 주장한다. 모델의 "포기"는 수많은 단계를 피하려는 데서 비롯될 가능성이 있으며, 추론 능력의 한계는 아니다. 특정 단계 수를 넘어 포기하는 것은 모델이 추론 능력이 부족하다는 것을 의미하지 않으며, 복잡한 문제에 직면한 인간의 행동을 반영한다.

AI