Bewertungen reichen nicht aus: Die Grenzen der LLM-Bewertung

2025-03-03

Dieser Artikel kritisiert die weit verbreitete Praxis, sich auf Bewertungen zu verlassen, um die Leistung von Software für große Sprachmodelle (LLM) zu gewährleisten. Obwohl die Rolle von Bewertungen beim Vergleich verschiedener Basismodelle und Unit-Tests anerkannt wird, hebt der Autor mehrere kritische Mängel in ihrer praktischen Anwendung hervor: die Schwierigkeit, umfassende Testdatensätze zu erstellen; die Grenzen automatisierter Bewertungsmethoden; die Unzulänglichkeit, nur das Basismodell zu bewerten, ohne die Leistung des gesamten Systems zu berücksichtigen; und die Verschleierung schwerwiegender Fehler durch die Mittelung der Bewertungsergebnisse. Der Autor argumentiert, dass Bewertungen das inhärente „Long-Tail-Problem“ von LLMs nicht lösen können, bei dem in der Produktion immer unvorhergesehene Situationen auftreten. Letztendlich plädiert der Artikel für eine Änderung der LLM-Entwicklungspraktiken und befürwortet einen Wandel von der ausschließlichen Abhängigkeit von Bewertungen hin zur Priorisierung von Benutzertests und umfassenderen Systemtests.

KI