Bewertung der Codegenerierungsfähigkeiten von LLMs: Einführung von MultiCodeBench

2024-12-30
Bewertung der Codegenerierungsfähigkeiten von LLMs: Einführung von MultiCodeBench

KI-gestützte Programmierassistenten, die auf Code-Large Language Models (LLMs) basieren, sind immer häufiger geworden und steigern die Produktivität von Entwicklern erheblich. Bisherige Benchmarks für die Codegenerierung konzentrieren sich jedoch hauptsächlich auf allgemeine Szenarien, wodurch die Leistung von LLMs in spezifischen Anwendungsbereichen weitgehend unbekannt bleibt. In diesem Artikel wird MultiCodeBench vorgestellt, ein neuer Benchmark mit 2400 Programmieraufgaben in 12 beliebten Softwareentwicklungsbereichen und 15 Programmiersprachen. Experimente mit elf gängigen LLMs zeigen deren Codegenerierungsleistung in verschiedenen Bereichen und liefern Entwicklern praktische Einblicke bei der Auswahl von LLMs sowie Hinweise für Modellentwickler zur Verbesserung domänenspezifischer Codegenerierungsfähigkeiten.

Entwicklung