Explosão de artigos sobre avaliação de LLMs para geração de código
2025-02-11

Uma série de pré-prints recentes no arXiv se concentra em avaliar modelos de linguagem grandes (LLMs) para geração de código. Esses artigos cobrem vários aspectos, incluindo LLMs resolvendo problemas reais do GitHub, geração de código auto-invocável, uso de APIs, análise de estabilidade e avaliações em todo o ciclo de vida do desenvolvimento de software. Os pesquisadores desenvolveram vários benchmarks, como SWE-bench, HumanEval Pro, SEAL e DevEval, juntamente com métricas correspondentes, visando uma avaliação mais abrangente das capacidades de geração de código do LLM e impulsionando o progresso no campo.
Desenvolvimento