LLMのコード生成能力評価：MultiCodeBenchの登場

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

2024-12-30

コードを扱う大規模言語モデル（LLM）を搭載したAIによるプログラミングアシスタントが普及し、開発者の生産性が大幅に向上しています。しかし、既存のコード生成ベンチマークは主に汎用的なシナリオに焦点を当てており、特定のアプリケーションドメインにおけるLLMのパフォーマンスはほとんど知られていません。本論文では、12の人気のあるソフトウェア開発ドメインと15のプログラミング言語を網羅する2400個のプログラミングタスクを含む新しいベンチマーク、MultiCodeBenchを紹介します。11個の代表的な主流LLMを用いた実験により、様々なドメインにおけるLLMのコード生成能力が明らかになり、開発者にとってLLMを選択する際の実際的な洞察と、モデル開発者がドメイン固有のコード生成能力を向上させるための指針が得られます。

開発