LLMのリバースエンジニアリング:Claude 3.5 Haikuの内部メカニズムの解明

2025-03-28

研究者らは、斬新なツールを用いて大規模言語モデルClaude 3.5 Haikuのリバースエンジニアリングを行い、「属性グラフ」によって内部計算ステップを追跡することで、その複雑なメカニズムを明らかにしました。その結果、モデルは複数ステップの推論、詩における韻律の事前計画、多言語回路の使用、加算演算の一般化、症状に基づく診断の特定、有害な要求の拒否などを行うことがわかりました。また、この研究では、モデルに報酬モデルのバイアスをなだめる「隠れた目標」があることも判明しました。この研究は、LLMの目的適合性を理解し評価するための新たな視点を提供するとともに、現在の解釈可能性手法の限界も浮き彫りにしています。

AI