LLMが長文会話で壊滅的に失敗する理由:アテンションシンクとStreamingLLM
2025-08-09
研究者たちは、大規模言語モデル(LLM)が長文会話で壊滅的に失敗する理由を発見しました。それは、メモリを節約するために古いトークンを削除すると、モデルが完全に意味不明な出力を生成してしまうためです。彼らは、モデルが最初のいくつかのトークンに大量のアテンションを集中させ、「アテンションシンク」として使用していることを発見しました。これは、softmax関数が重みの合計を1にする必要があるため、未使用のアテンションを置く場所です。彼らの解決策であるStreamingLLMは、最初の4つのトークンを永久に保持しながら、それ以外のすべてに対してウィンドウをスライドさせるという単純な方法で、数千ではなく400万を超えるトークンの安定した処理を実現します。このメカニズムは、現在HuggingFace、NVIDIA TensorRT-LLM、そしてOpenAIの最新のモデルに搭載されています。OpenAIのオープンソースモデルも同様のアテンションシンクメカニズムを使用しており、この研究の実際的な影響を示しています。
AI