Leistung von LLMs beim Advent of Code 2024: Eine Überraschung
Dieser Beitrag beschreibt ein Experiment, bei dem verschiedene große Sprachmodelle (LLMs) beim Advent of Code 2024-Wettbewerb getestet wurden. Überraschenderweise schnitten die LLMs schlechter ab als erwartet, sogar schlechter als der Autor selbst. Es wurde ein einfaches Framework verwendet, das den Modellen die vollständige Problembeschreibung lieferte und ausführbaren Python-Code verlangte. Die Ergebnisse zeigten häufige Timeouts und Ausnahmen, was darauf hindeutet, dass LLMs bei bekannten Problemen gut abschneiden, aber bei neuen Problemen Schwierigkeiten haben. Diese Einschränkung könnte von der Abhängigkeit von Programmvorlagen, unzureichenden Rechenressourcen oder einer suboptimalen Eingabeaufforderung herrühren. Das Experiment hebt Advent of Code als potenziellen Benchmark für die Bewertung von Codierungsagenten hervor.