高速な言語モデルのためのKVキャッシュのトリック
2025-01-28

大規模言語モデル(LLM)によるテキスト生成の遅さは、自己注意機構の計算複雑さに起因します。この記事では、KVキャッシングとその最適化手法を探ります。KVキャッシングは、各トークンのキーバリューペアを保存することで冗長な計算を回避し、複雑さをO(n³)からO(n²)に削減しますが、メモリ消費量は依然として大きいです。この記事では、11本の論文で提案されている最適化手法、つまり、注意スコアに基づくトークンの選択とプルーニング、事後圧縮技術、マルチヘッド潜在的注意(MLA)などのアーキテクチャの再設計について詳しく説明します。これらは、メモリ使用量と計算効率のバランスを取り、ChatGPTのようなモデルをより高速かつ効率的にテキストを生成できるようにすることを目指しています。