학습된 표현을 이용한 효율적인 루빅스 큐브 해결: 수작업 휴리스틱 불필요

2025-08-29

고전적인 AI에서 지각은 공간 표현 학습에 의존하는 반면, 계획(행동 순서에 대한 시간적 추론)은 일반적으로 탐색을 통해 달성됩니다. 본 연구는 공간 구조와 시간 구조를 모두 포착하는 표현에서 그러한 추론이 나타날 수 있는지 여부를 조사합니다. 표준 시간적 대조 학습은 허위 특징에 대한 의존으로 인해 시간 구조를 포착하지 못하는 경우가 많습니다. 이를 해결하기 위해 저자들은 시간적 추론을 위한 대조 표현(CRTR)을 도입하여 부정적 샘플링 방식을 사용하여 이러한 허위 특징을 제거하고 시간적 추론을 촉진합니다. CRTR은 소코반과 루빅스 큐브와 같이 복잡한 시간 구조를 가진 도메인에서 강력한 결과를 달성합니다. 특히 루빅스 큐브의 경우 CRTR은 모든 초기 상태로 일반화되는 표현을 학습하고 BestFS보다 훨씬 빠르게 퍼즐을 해결할 수 있습니다(단, 해결책은 더 깁니다). 우리가 아는 한, 이는 수작업 탐색 휴리스틱을 사용하지 않고 학습된 표현만을 사용하여 임의의 큐브 상태를 효율적으로 해결하는 최초의 데모입니다.

더 보기