OpenAI新模型幻觉更严重:规模越大,幻觉越多?
2025-04-18

OpenAI最新发布的o3和o4-mini模型虽然在许多方面都达到了最先进的水平,但它们的“幻觉”问题却比之前的模型更加严重。内部测试显示,这两个推理模型的幻觉发生率远高于之前的o1、o1-mini和o3-mini,甚至超过了传统的非推理模型GPT-4o。OpenAI目前尚不清楚原因,但这无疑给依赖准确性的行业带来了挑战。第三方测试也证实了这一问题,例如o3经常编造其推理过程中采取的步骤。虽然在编码和数学方面表现出色,但更高的幻觉率限制了其应用场景。解决模型幻觉问题是当前AI领域的研究重点,赋予模型网络搜索能力被认为是一个有希望的途径。
AI