Bewertung der Codegenerierungsfähigkeiten von LLMs: Einführung von MultiCodeBench

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

Bewertung der Codegenerierungsfähigkeiten von LLMs: Einführung von MultiCodeBench

2024-12-30

KI-gestützte Programmierassistenten, die auf Code-Large Language Models (LLMs) basieren, sind immer häufiger geworden und steigern die Produktivität von Entwicklern erheblich. Bisherige Benchmarks für die Codegenerierung konzentrieren sich jedoch hauptsächlich auf allgemeine Szenarien, wodurch die Leistung von LLMs in spezifischen Anwendungsbereichen weitgehend unbekannt bleibt. In diesem Artikel wird MultiCodeBench vorgestellt, ein neuer Benchmark mit 2400 Programmieraufgaben in 12 beliebten Softwareentwicklungsbereichen und 15 Programmiersprachen. Experimente mit elf gängigen LLMs zeigen deren Codegenerierungsleistung in verschiedenen Bereichen und liefern Entwicklern praktische Einblicke bei der Auswahl von LLMs sowie Hinweise für Modellentwickler zur Verbesserung domänenspezifischer Codegenerierungsfähigkeiten.

(arxiv.org)

Entwicklung

Technologischer Fortschritt und kindliches Lernen: Die Veränderung eines Computers

Berufungsgericht in Florida weist Initiative zum Recht auf sauberes Wasser zurück