LLaDA: 확산 모델 기반의 새로운 대규모 언어 모델 패러다임
2025-02-20
LLaDA(Large Language Diffusion with Masking)는 마스크된 확산 모델을 기반으로 하는 새로운 대규모 언어 모델 패러다임으로, 기존 대규모 언어 모델이 자기 회귀 메커니즘에 의존한다는 일반적인 견해에 도전합니다. LLaDA는 최대 우도 추정을 통해 실제 언어 분포를 근사하며, 그 뛰어난 성능은 자기 회귀 메커니즘 자체가 아니라 생성 모델의 핵심 원리에서 비롯됩니다. 연구에 따르면 LLaDA는 동일한 데이터에서 자기 회귀 기준 모델과 비교하여 경쟁력 있는 확장성을 보이며, 마스크된 확산을 사용한 사전 학습과 지도 학습 파인튜닝, 그리고 확산 샘플링을 통한 텍스트 생성을 수행합니다.
더 보기
AI