AIデバッグは期待外れ：Microsoftの研究がコード生成モデルの限界を明らかに

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

2025-04-11

Microsoftの研究によると、OpenAIやAnthropicなどのトップAIラボのモデルでさえ、熟練の開発者ほど効果的にソフトウェアのバグをデバッグできないことが明らかになりました。9つのモデルをテストした研究では、デバッグツールがあっても、これらのモデルはSWE-bench Liteベンチマークのデバッグタスクの半分以上を成功させることができませんでした。研究は、データの不足を主な原因として指摘しています。モデルは、人間のデバッグプロセスを表す十分なトレーニングデータがありません。AI支援プログラミングツールは有望ですが、この研究は、コーディングにおけるAIの限界を浮き彫りにし、人間の開発者の重要性を強調しています。