Explosion d'articles sur l'évaluation des LLM pour la génération de code

2025-02-11
Explosion d'articles sur l'évaluation des LLM pour la génération de code

Une série de prépublications récentes sur arXiv se concentre sur l'évaluation des grands modèles de langage (LLM) pour la génération de code. Ces articles couvrent divers aspects, notamment les LLM résolvant des problèmes réels de GitHub, la génération de code auto-appelant, l'utilisation d'API, l'analyse de stabilité et les évaluations tout au long du cycle de vie du développement logiciel. Les chercheurs ont développé divers benchmarks tels que SWE-bench, HumanEval Pro, SEAL et DevEval, ainsi que des métriques correspondantes, visant une évaluation plus complète des capacités de génération de code des LLM et stimulant le progrès dans le domaine.

Lire plus
Développement