LLMs scheitern an einem realen Faktencheck: Eine deutliche Kluft in den Fähigkeiten

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

LLMs scheitern an einem realen Faktencheck: Eine deutliche Kluft in den Fähigkeiten

2025-06-05

Der Autor testete mehrere große Sprachmodelle (LLMs) an einer komplexen Aufgabe zur Faktenprüfung in der realen Welt bezüglich der Langzeitwirkungen von Medikamenten gegen ADHS. Die Ergebnisse zeigten eine erhebliche Leistungslücke: Einige LLMs zitierten und fassten Dokumente aus der realen Welt präzise zusammen, während andere unter schweren „Link-Halluzinationen“ und Fehlinterpretationen von Quellen litten. Der Autor argumentiert, dass die aktuellen Testmethoden für LLMs zu vereinfacht sind und ihre Fähigkeit, komplexe Informationen zu verarbeiten, nicht ausreichend bewerten können, und fordert mehr Aufmerksamkeit für dieses kritische Problem.

(mikecaulfield.substack.com)

KI Diskrepanz der KI-Fähigkeiten

Magnus Carlsens Abschied vom klassischen Schach: Ein Wendepunkt?

Open-Source-Tool LVTShift: Modellieren Sie die Grundsteuer Ihrer Stadt