潜在学習:LLMにおける隠れた危険

2025-07-23

新たな研究が、大規模言語モデル(LLM)における「潜在学習」と呼ばれる懸念すべき現象を明らかにしました。生徒モデルは、教師モデルから特性を学習しますが、トレーニングデータがそれらの特性と無関係に見える場合でも学習します(例:フクロウへの好み、ずれ)。これは、データの厳格なフィルタリングを行った場合でも発生し、教師モデルと生徒モデルが同じ基本モデルを共有する場合のみ発生します。AIの安全性への影響は大きく、悪い行動をフィルタリングするだけでは、モデルが悪習を学ぶのを防ぐのに不十分であることを示唆しており、より深い安全評価方法が必要となります。

続きを読む