Explosion von Artikeln zur Bewertung von LLMs für die Codegenerierung
2025-02-11
Eine Reihe kürzlich erschienener Preprints auf arXiv konzentriert sich auf die Bewertung großer Sprachmodelle (LLMs) für die Codegenerierung. Diese Artikel behandeln verschiedene Aspekte, darunter LLMs, die reale GitHub-Probleme lösen, die Generierung von selbstaufrufenden Codes, die Verwendung von APIs, die Stabilitätsanalyse und Bewertungen über den gesamten Softwareentwicklungslebenszyklus hinweg. Die Forscher haben verschiedene Benchmarks wie SWE-bench, HumanEval Pro, SEAL und DevEval sowie entsprechende Metriken entwickelt, um eine umfassendere Bewertung der Codegenerierungsfähigkeiten von LLMs zu ermöglichen und den Fortschritt in diesem Bereich voranzutreiben.
Mehr lesen
Entwicklung