SeedLM:擬似乱数発生器を用いたLLMウェイト圧縮手法
2025-04-06

大規模言語モデル(LLM)は、高価な実行コストのために、広く展開されることが制限されています。Metaの研究者らは、擬似乱数発生器のシードを使用してモデルウェイトをエンコードおよび圧縮する、新しいポストトレーニング圧縮手法SeedLMを発表しました。推論中に、SeedLMは線形フィードバックシフトレジスタ(LFSR)を用いて効率的にランダム行列を生成し、それを圧縮係数と線形結合してウェイトブロックを再構成します。これにより、メモリアクセスが削減され、アイドル状態の計算サイクルが活用され、メモリバウンドタスクの高速化が実現します。キャリブレーションデータに依存する最先端の方法とは異なり、SeedLMはデータフリーであり、さまざまなタスクで高い汎化性能を示します。困難なLlama 3 70Bを用いた実験では、4ビットおよび3ビット圧縮におけるゼロショット精度が、最先端の方法と同等かそれ以上であり、FP16ベースラインと同等の性能を維持しています。さらに、FPGAベースのテストでは、モデルサイズが増加するにつれて、4ビットSeedLMはFP16 Llama 2/3ベースラインに対して4倍の高速化に近づきます。
AI