Webtagr - Technologienummer

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

Explosion von Artikeln zur Bewertung von LLMs für die Codegenerierung

2025-02-11

Eine Reihe kürzlich erschienener Preprints auf arXiv konzentriert sich auf die Bewertung großer Sprachmodelle (LLMs) für die Codegenerierung. Diese Artikel behandeln verschiedene Aspekte, darunter LLMs, die reale GitHub-Probleme lösen, die Generierung von selbstaufrufenden Codes, die Verwendung von APIs, die Stabilitätsanalyse und Bewertungen über den gesamten Softwareentwicklungslebenszyklus hinweg. Die Forscher haben verschiedene Benchmarks wie SWE-bench, HumanEval Pro, SEAL und DevEval sowie entsprechende Metriken entwickelt, um eine umfassendere Bewertung der Codegenerierungsfähigkeiten von LLMs zu ermöglichen und den Fortschritt in diesem Bereich voranzutreiben.

(www.hackerrank.com)

Entwicklung