Avaliando a capacidade de geração de código de LLMs: Apresentando o MultiCodeBench

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

2024-12-30

Assistentes de programação baseados em IA e alimentados por Large Language Models (LLMs) de código tornaram-se cada vez mais comuns, aumentando significativamente a produtividade dos desenvolvedores. No entanto, os benchmarks existentes de geração de código focam principalmente em cenários de uso geral, deixando o desempenho dos LLMs em domínios de aplicativos específicos em grande parte desconhecido. Este artigo apresenta o MultiCodeBench, um novo benchmark composto por 2.400 tarefas de programação em 12 domínios populares de desenvolvimento de software e 15 linguagens de programação. Experimentos em onze LLMs principais revelam seu desempenho na geração de código em diferentes domínios, oferecendo insights práticos para desenvolvedores na seleção de LLMs e orientação para desenvolvedores de modelos para melhorar as capacidades de geração de código específicas do domínio.