回路トレース:LLMにおける計算グラフの解明
2025-04-02

研究者らは、クロスレイヤー・トランスコーダー(CLT)を用いて深層学習モデルの内部動作を解釈する新しいアプローチを発表しました。CLTはモデルの活性化をスパースで解釈可能な特徴に分解し、特徴間の相互作用の因果グラフを構築することで、モデルがどのように出力を生成するかを明らかにします。この手法は、様々なプロンプト(例:頭字語生成、事実の想起、簡単な足し算など)に対するモデルの応答をうまく説明し、摂動実験によって検証されています。注意機構を完全に説明できないなどの限界はありますが、大規模言語モデルの内部動作を理解するための貴重なツールを提供します。
続きを読む