大型语言模型的随机性测试：意料之外的偏见

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

大型语言模型的随机性测试：意料之外的偏见

2025-04-30

这项实验测试了OpenAI和Anthropic的几种大型语言模型（LLM）的随机性。通过让模型抛硬币和预测0到10之间的随机数，研究人员发现，这些模型并非完全随机，存在明显的偏见。例如，在抛硬币实验中，所有模型都倾向于预测“正面”，其中GPT-o1的偏差最为严重，达到49%。在预测奇偶数的实验中，大多数模型偏向于预测奇数，Claude 3.7 Sonnet的偏差最为显著，达到47%。研究结果表明，即使是先进的LLM，其输出也可能受到训练数据分布的影响，产生非预期的模式。

(rnikhil.com)

arXivLabs：与社区协作者共建arXiv新功能

十年磨一剑：对话式邮件应用Talanoa诞生记