LLaDA:拡散モデルに基づく新しい大規模言語モデルパラダイム
2025-02-20
LLaDA(Large Language Diffusion with Masking)は、マスクされた拡散モデルに基づく新しい大規模言語モデルのパラダイムであり、既存の大規模言語モデルが自己回帰メカニズムに依存するという一般的な見解に挑戦しています。LLaDAは最大尤度推定によって真の言語分布を近似し、その優れた能力は自己回帰メカニズム自体ではなく、生成モデルの中核原理に由来します。研究によると、LLaDAは同じデータにおける自己回帰ベースラインモデルと比較して、競争力のあるスケーラビリティを示し、マスクされた拡散を用いた事前学習と教師ありファインチューニング、および拡散サンプリングによるテキスト生成を行います。
AI