LLMが長文会話で壊滅的に失敗する理由:アテンションシンクとStreamingLLM

2025-08-09

研究者たちは、大規模言語モデル(LLM)が長文会話で壊滅的に失敗する理由を発見しました。それは、メモリを節約するために古いトークンを削除すると、モデルが完全に意味不明な出力を生成してしまうためです。彼らは、モデルが最初のいくつかのトークンに大量のアテンションを集中させ、「アテンションシンク」として使用していることを発見しました。これは、softmax関数が重みの合計を1にする必要があるため、未使用のアテンションを置く場所です。彼らの解決策であるStreamingLLMは、最初の4つのトークンを永久に保持しながら、それ以外のすべてに対してウィンドウをスライドさせるという単純な方法で、数千ではなく400万を超えるトークンの安定した処理を実現します。このメカニズムは、現在HuggingFace、NVIDIA TensorRT-LLM、そしてOpenAIの最新のモデルに搭載されています。OpenAIのオープンソースモデルも同様のアテンションシンクメカニズムを使用しており、この研究の実際的な影響を示しています。

続きを読む
AI

SVDQuant:NVFP4によるBlackwell GPUで3倍高速化

2025-02-22

MITの研究者らが、SVDQuantを開発しました。これは、低ランクブランチを利用して外れ値を吸収する新しい4ビット量子化パラダイムであり、NVIDIAのBlackwell GPUアーキテクチャ上で顕著な性能向上を実現します。NVFP4フォーマットを使用することで、SVDQuantはINT4よりも優れた画質を実現し、BF16と比較して3倍の速度向上を実現します。メモリ使用量は3.5倍削減されます。この研究成果はオープンソース化されており、インタラクティブなデモも提供されています。

続きを読む