Meta의 바이트 잠재 트랜스포머(BLT): 토큰 기반 LLM 능가

2024-12-14

Meta AI 연구원들은 토큰 대신 바이트를 직접 처리하는 새로운 대규모 언어 모델 아키텍처인 바이트 잠재 트랜스포머(BLT)를 발표했습니다. BLT는 바이트 엔트로피에 따라 계산 리소스를 동적으로 할당하여 토큰 기반 모델과 비교하여 추론 효율성과 견고성이 크게 향상되었습니다. 최대 80억 개의 매개변수와 4테라바이트의 학습 데이터를 사용한 확장 실험에서 BLT는 토큰 기반 LLM과 동등한 성능을 달성하는 동시에 고급 추론 능력과 롱테일 데이터 처리 능력을 제공하는 것으로 나타났습니다. 이 연구는 고정된 어휘 없이 원시 바이트 데이터로 직접 대규모 모델을 학습할 수 있는 가능성을 보여줍니다.

더 보기

Meta FAIR, 획기적인 AI 연구 및 오픈소스 모델 공개

2024-12-13

Meta FAIR는 가상 구현 에이전트 제어를 위한 기본 모델인 Meta Motivo와 비디오 워터마킹을 위한 오픈소스 모델인 Meta Video Seal을 포함한 획기적인 AI 연구 결과물을 발표했습니다. 이번 발표는 에이전트 역량, 강건성, 안전성, 그리고 더욱 효율적인 학습을 위한 아키텍처 혁신의 발전에 중점을 두고 있습니다. 다른 주요 기여로는 Flow Matching 코드베이스, 마음 이론 추론을 위한 Meta Explore Theory-of-Mind, 대규모 개념 모델(LCM), 동적 바이트 잠재 변환기 등이 있습니다. Meta는 이러한 모델과 도구를 오픈소스화함으로써 협업을 촉진하고 책임감 있는 AI 개발을 가속화하고자 합니다.

더 보기
AI