토큰화 문제가 NP 완전 문제임이 증명되면서 데이터 압축 과제가 두 배로 증가
2024-12-22
arXiv에 게시된 논문에서 데이터 세트를 최대 δ개의 심볼로 압축하는 문제로 정의된 토큰화의 두 가지 변형이 NP 완전 문제임이 증명되었습니다. 두 가지 변형은 직접 어휘를 찾는 방법(직접 토큰화)과 일련의 병합 작업을 선택하는 방법(하향식 토큰화)입니다. 이러한 발견은 데이터 압축과 자연어 처리에 상당한 영향을 미치며 대규모 데이터 세트의 토큰화 문제를 효율적으로 해결하는 데 어려움이 매우 크다는 점을 강조합니다.