Explosão de artigos sobre avaliação de LLMs para geração de código

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

Explosão de artigos sobre avaliação de LLMs para geração de código

2025-02-11

Uma série de pré-prints recentes no arXiv se concentra em avaliar modelos de linguagem grandes (LLMs) para geração de código. Esses artigos cobrem vários aspectos, incluindo LLMs resolvendo problemas reais do GitHub, geração de código auto-invocável, uso de APIs, análise de estabilidade e avaliações em todo o ciclo de vida do desenvolvimento de software. Os pesquisadores desenvolveram vários benchmarks, como SWE-bench, HumanEval Pro, SEAL e DevEval, juntamente com métricas correspondentes, visando uma avaliação mais abrangente das capacidades de geração de código do LLM e impulsionando o progresso no campo.

(www.hackerrank.com)

Desenvolvimento

NOAA: O Herói Anônimo Atrás das Previsões do Tempo nos EUA

arXivLabs: Projetos Experimentais com Colaboradores da Comunidade