LLMs scheitern elegant: Die Leistung bei langen Kontexten verschlechtert sich selbst bei einfachen Aufgaben

2025-07-15
LLMs scheitern elegant: Die Leistung bei langen Kontexten verschlechtert sich selbst bei einfachen Aufgaben

Diese Forschung hinterfragt die gängige Annahme, dass große Sprachmodelle (LLMs) bei Aufgaben mit langem Kontext einheitlich gute Leistungen erbringen. Durch die Erweiterung des Needle-in-a-Haystack-Benchmarks und die Einführung von Variablen wie semantischer Übereinstimmung und Ablenkern stellten die Forscher fest, dass selbst unter vereinfachten Bedingungen die Modellleistung mit zunehmender Eingabelänge abnimmt. Dies wurde sowohl bei konversationellen Frage-Antwort-Aufgaben als auch bei einer Aufgabe zur Wiederholung wiederholter Wörter bestätigt, was die Grenzen der Fähigkeiten von LLMs im Umgang mit langen Kontexten aufzeigt und potenzielle Herausforderungen in realen Anwendungen nahelegt.