Die Zuverlässigkeitskrise bei KI-Agenten-Benchmarks
Aktuelle KI-Agenten-Benchmarks leiden unter einer erheblichen Zuverlässigkeitskrise. Viele Benchmarks enthalten ausnutzbare Schwachstellen, die zu einer starken Über- oder Unterschätzung der Fähigkeiten von Agenten führen. Beispielsweise markiert WebArena falsche Antworten als richtig, während andere unter fehlerhaften Simulatoren oder nicht robusten Bewertungsmethoden leiden. Forscher schlagen eine 43-Punkte-Checkliste für KI-Agenten-Benchmarks (ABC) vor, um die Zuverlässigkeit von Benchmarks zu verbessern und 10 gängige Benchmarks zu evaluieren, wobei sie in den meisten erhebliche Mängel feststellen. Diese Checkliste soll Benchmark-Entwicklern und KI-Modellentwicklern helfen, zuverlässigere Bewertungsmethoden zu entwickeln, um die Fähigkeiten von KI-Agenten genauer zu beurteilen.