大型语言模型的随机性测试:意料之外的偏见

2025-04-30

这项实验测试了OpenAI和Anthropic的几种大型语言模型(LLM)的随机性。通过让模型抛硬币和预测0到10之间的随机数,研究人员发现,这些模型并非完全随机,存在明显的偏见。例如,在抛硬币实验中,所有模型都倾向于预测“正面”,其中GPT-o1的偏差最为严重,达到49%。在预测奇偶数的实验中,大多数模型偏向于预测奇数,Claude 3.7 Sonnet的偏差最为显著,达到47%。研究结果表明,即使是先进的LLM,其输出也可能受到训练数据分布的影响,产生非预期的模式。

AI