Explosión de artículos sobre la evaluación de LLMs para la generación de código

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

Explosión de artículos sobre la evaluación de LLMs para la generación de código

2025-02-11

Una serie de preprints recientes en arXiv se centran en la evaluación de los modelos de lenguaje grandes (LLMs) para la generación de código. Estos artículos cubren varios aspectos, incluyendo LLMs resolviendo problemas reales de GitHub, generación de código autoinvocatoria, uso de APIs, análisis de estabilidad y evaluaciones a lo largo del ciclo de vida del desarrollo de software. Los investigadores han desarrollado varios benchmarks, como SWE-bench, HumanEval Pro, SEAL y DevEval, junto con métricas correspondientes, con el objetivo de una evaluación más completa de las capacidades de generación de código de los LLMs e impulsando el progreso en el campo.

(www.hackerrank.com)

Desarrollo

NOAA: El héroe anónimo detrás de los pronósticos del tiempo en EE. UU.

arXivLabs: Proyectos experimentales con colaboradores de la comunidad