Metaのバイト潜在トランスフォーマー(BLT):トークンベースのLLMを凌駕

2024-12-14

Meta AIの研究者らは、トークンではなくバイトを直接処理する、新しい大規模言語モデルアーキテクチャであるバイト潜在トランスフォーマー(BLT)を発表しました。BLTは、バイトのエントロピーに基づいて計算リソースを動的に割り当てることで、トークンベースのモデルと比較して、推論効率と堅牢性が大幅に向上しています。最大80億パラメータと4テラバイトのトレーニングデータを用いたスケーリング実験では、BLTはトークンベースのLLMと同等の性能を達成し、同時に高度な推論能力とロングテールデータの処理能力を提供することが示されました。この研究は、固定された語彙を持たずに、生のバイトデータで直接大規模モデルをトレーニングする可能性を示しています。