LLMのランダム性テストが予想外のバイアスを明らかに
この実験では、OpenAIとAnthropicのいくつかの大規模言語モデル(LLM)のランダム性をテストしました。モデルにコインを投げさせ、0から10までのランダムな数を予測させることで、研究者たちは、それらの出力が真にランダムではなく、有意なバイアスがあることを発見しました。例えば、コイン投げの実験では、すべてのモデルが「表」を好む傾向があり、GPT-o1は49%という最も極端なバイアスを示しました。奇数/偶数の予測では、ほとんどのモデルが奇数を好み、Claude 3.7 Sonnetは47%という最も強いバイアスを示しました。この結果は、高度なLLMでさえ、トレーニングデータの分布の影響を受けて、予期せぬパターンを示す可能性があることを強調しています。
続きを読む