Explosión de artículos sobre la evaluación de LLMs para la generación de código

2025-02-11
Explosión de artículos sobre la evaluación de LLMs para la generación de código

Una serie de preprints recientes en arXiv se centran en la evaluación de los modelos de lenguaje grandes (LLMs) para la generación de código. Estos artículos cubren varios aspectos, incluyendo LLMs resolviendo problemas reales de GitHub, generación de código autoinvocatoria, uso de APIs, análisis de estabilidad y evaluaciones a lo largo del ciclo de vida del desarrollo de software. Los investigadores han desarrollado varios benchmarks, como SWE-bench, HumanEval Pro, SEAL y DevEval, junto con métricas correspondientes, con el objetivo de una evaluación más completa de las capacidades de generación de código de los LLMs e impulsando el progreso en el campo.

Desarrollo