コード生成におけるLLMの評価に関する論文が大量発表

2025-02-11
コード生成におけるLLMの評価に関する論文が大量発表

最近のarXivには、大規模言語モデル(LLM)によるコード生成能力をベンチマークする論文が多数掲載されています。これらの論文は、LLMが現実世界のGitHub上の問題を解決すること、自己呼び出しコードの生成、APIの使用、安定性分析、そしてソフトウェア開発ライフサイクル全体の評価など、様々な側面をカバーしています。研究者たちは、SWE-bench、HumanEval Pro、SEAL、DevEvalなどの様々なベンチマークと、それに対応する指標を開発し、LLMのコード生成能力をより包括的に評価し、この分野の進歩を促進することを目指しています。

続きを読む
開発