Leistung von LLMs beim Advent of Code 2024: Eine Überraschung

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

Leistung von LLMs beim Advent of Code 2024: Eine Überraschung

2024-12-30

Dieser Beitrag beschreibt ein Experiment, bei dem verschiedene große Sprachmodelle (LLMs) beim Advent of Code 2024-Wettbewerb getestet wurden. Überraschenderweise schnitten die LLMs schlechter ab als erwartet, sogar schlechter als der Autor selbst. Es wurde ein einfaches Framework verwendet, das den Modellen die vollständige Problembeschreibung lieferte und ausführbaren Python-Code verlangte. Die Ergebnisse zeigten häufige Timeouts und Ausnahmen, was darauf hindeutet, dass LLMs bei bekannten Problemen gut abschneiden, aber bei neuen Problemen Schwierigkeiten haben. Diese Einschränkung könnte von der Abhängigkeit von Programmvorlagen, unzureichenden Rechenressourcen oder einer suboptimalen Eingabeaufforderung herrühren. Das Experiment hebt Advent of Code als potenziellen Benchmark für die Bewertung von Codierungsagenten hervor.

(www.jerpint.io)

KI Codierungsherausforderung

Warum Linux immer noch nicht bereit für den Desktop ist

Programmier-Schriftart-Turnier: Source Code Pro siegt