LLMs scheitern an einem realen Faktencheck: Eine deutliche Kluft in den Fähigkeiten
2025-06-05
Der Autor testete mehrere große Sprachmodelle (LLMs) an einer komplexen Aufgabe zur Faktenprüfung in der realen Welt bezüglich der Langzeitwirkungen von Medikamenten gegen ADHS. Die Ergebnisse zeigten eine erhebliche Leistungslücke: Einige LLMs zitierten und fassten Dokumente aus der realen Welt präzise zusammen, während andere unter schweren „Link-Halluzinationen“ und Fehlinterpretationen von Quellen litten. Der Autor argumentiert, dass die aktuellen Testmethoden für LLMs zu vereinfacht sind und ihre Fähigkeit, komplexe Informationen zu verarbeiten, nicht ausreichend bewerten können, und fordert mehr Aufmerksamkeit für dieses kritische Problem.