Explosion von Artikeln zur Bewertung von LLMs für die Codegenerierung

2025-02-11
Explosion von Artikeln zur Bewertung von LLMs für die Codegenerierung

Eine Reihe kürzlich erschienener Preprints auf arXiv konzentriert sich auf die Bewertung großer Sprachmodelle (LLMs) für die Codegenerierung. Diese Artikel behandeln verschiedene Aspekte, darunter LLMs, die reale GitHub-Probleme lösen, die Generierung von selbstaufrufenden Codes, die Verwendung von APIs, die Stabilitätsanalyse und Bewertungen über den gesamten Softwareentwicklungslebenszyklus hinweg. Die Forscher haben verschiedene Benchmarks wie SWE-bench, HumanEval Pro, SEAL und DevEval sowie entsprechende Metriken entwickelt, um eine umfassendere Bewertung der Codegenerierungsfähigkeiten von LLMs zu ermöglichen und den Fortschritt in diesem Bereich voranzutreiben.

Mehr lesen
Entwicklung