Webtagr - テクノロジーニュースダイジェスト

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

コード生成におけるLLMの評価に関する論文が大量発表

2025-02-11

最近のarXivには、大規模言語モデル（LLM）によるコード生成能力をベンチマークする論文が多数掲載されています。これらの論文は、LLMが現実世界のGitHub上の問題を解決すること、自己呼び出しコードの生成、APIの使用、安定性分析、そしてソフトウェア開発ライフサイクル全体の評価など、様々な側面をカバーしています。研究者たちは、SWE-bench、HumanEval Pro、SEAL、DevEvalなどの様々なベンチマークと、それに対応する指標を開発し、LLMのコード生成能力をより包括的に評価し、この分野の進歩を促進することを目指しています。

(www.hackerrank.com)

開発