OpenAIs neue Modelle halluzinieren mehr: Größer ist nicht immer besser

2025-04-18
OpenAIs neue Modelle halluzinieren mehr: Größer ist nicht immer besser

Die kürzlich von OpenAI veröffentlichten Modelle o3 und o4-mini sind in vielerlei Hinsicht state-of-the-art, zeigen aber im Vergleich zu ihren Vorgängern einen besorgniserregenden Anstieg von Halluzinationen. Interne Tests zeigen deutlich höhere Halluzinationsraten als bei früheren Reasonings-Modellen (o1, o1-mini und o3-mini) und sogar bei traditionellen Nicht-Reasoning-Modellen wie GPT-4o. OpenAI ist sich der Ursache nicht sicher, was eine Herausforderung für Branchen darstellt, die Genauigkeit erfordern. Tests von Drittanbietern bestätigen dieses Problem, wobei o3 Schritte in seinem Denkprozess erfindet. Obwohl es in der Programmierung und Mathematik hervorragend abschneidet, schränkt die höhere Halluzinationsrate die Anwendbarkeit ein. Die Behebung von Halluzinationen bei Modellen ist ein Schlüsselbereich der KI-Forschung, und die Ausstattung von Modellen mit Websuchfunktionen erweist sich als vielversprechender Ansatz.