Meta의 바이트 잠재 트랜스포머(BLT): 토큰 기반 LLM 능가

2024-12-14

Meta AI 연구원들은 토큰 대신 바이트를 직접 처리하는 새로운 대규모 언어 모델 아키텍처인 바이트 잠재 트랜스포머(BLT)를 발표했습니다. BLT는 바이트 엔트로피에 따라 계산 리소스를 동적으로 할당하여 토큰 기반 모델과 비교하여 추론 효율성과 견고성이 크게 향상되었습니다. 최대 80억 개의 매개변수와 4테라바이트의 학습 데이터를 사용한 확장 실험에서 BLT는 토큰 기반 LLM과 동등한 성능을 달성하는 동시에 고급 추론 능력과 롱테일 데이터 처리 능력을 제공하는 것으로 나타났습니다. 이 연구는 고정된 어휘 없이 원시 바이트 데이터로 직접 대규모 모델을 학습할 수 있는 가능성을 보여줍니다.