SepLLM:無意味なトークンを圧縮することでLLMの推論を高速化
2025-03-06

大規模言語モデル(LLM)は、その膨大な計算コストによって大きな課題に直面しています。研究者らは、特定の無意味な特殊トークンが、注意スコアに不釣り合いなほど大きく寄与していることを発見しました。これに基づき、彼らはSepLLMというフレームワークを提案しました。これは、これらのトークン間のセグメントを圧縮し、冗長なトークンを削除することで推論を高速化するものです。実験の結果、SepLLMはLlama-3-8Bを使用し、GSM8K-CoTベンチマークにおいてKVキャッシュを50%以上削減し、性能の低下は無視できる程度でした。ストリーミング設定では、SepLLMは最大400万トークン以上の言語モデリングを効果的に処理します。