Evaluación de la capacidad de generación de código de los LLMs: Presentación de MultiCodeBench

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

2024-12-30

Los asistentes de programación basados en IA y alimentados por modelos de lenguaje extenso (LLM) de código se han vuelto cada vez más comunes, aumentando significativamente la productividad de los desarrolladores. Sin embargo, los benchmarks existentes de generación de código se centran principalmente en escenarios de propósito general, dejando el rendimiento de los LLMs en dominios de aplicación específicos en gran medida desconocido. Este artículo presenta MultiCodeBench, un nuevo benchmark compuesto por 2400 tareas de programación en 12 dominios populares de desarrollo de software y 15 lenguajes de programación. Los experimentos en once LLMs principales revelan su rendimiento en la generación de código en diferentes dominios, ofreciendo información práctica para los desarrolladores en la selección de LLMs y orientación para los desarrolladores de modelos para mejorar las capacidades de generación de código específicas del dominio.