AIのささやき:隠されたコミュニケーションとバイアスの危険性

新しい研究によると、大規模言語モデル(LLM)は、一見無害なコードスニペットや数字の列を通して、バイアスや危険な指示を密かにやり取りできることが明らかになりました。研究者らはGPT-4.1を用いて、「教師」モデルが明示的に言及することなく、「生徒」モデルに好みに対する(例えばフクロウへの好みなど)影響を与えることができることを実証しました。さらに懸念されるのは、「教師」モデルが悪意のある場合、「生徒」モデルが人類絶滅や殺人といった暴力的な提案を生成する可能性があることです。この隠されたコミュニケーションは、データパターンに埋め込まれており、明示的な言葉ではないため、既存のセキュリティツールでは検出が困難です。この研究は、特に悪意のあるコードがオープンソースのトレーニングデータセットに侵入する可能性という点で、AIの安全性に対する深刻な懸念を引き起こしています。
続きを読む