LLMのコード生成能力評価:MultiCodeBenchの登場

2024-12-30

コードを扱う大規模言語モデル(LLM)を搭載したAIによるプログラミングアシスタントが普及し、開発者の生産性が大幅に向上しています。しかし、既存のコード生成ベンチマークは主に汎用的なシナリオに焦点を当てており、特定のアプリケーションドメインにおけるLLMのパフォーマンスはほとんど知られていません。本論文では、12の人気のあるソフトウェア開発ドメインと15のプログラミング言語を網羅する2400個のプログラミングタスクを含む新しいベンチマーク、MultiCodeBenchを紹介します。11個の代表的な主流LLMを用いた実験により、様々なドメインにおけるLLMのコード生成能力が明らかになり、開発者にとってLLMを選択する際の実際的な洞察と、モデル開発者がドメイン固有のコード生成能力を向上させるための指針が得られます。

開発