OpenAIが認める：最先端のAIモデルでも人間のプログラマーの代わりにはならない

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

2025-02-24

OpenAIの新しい論文によると、GPT-4やClaude 3.5などの最先端の大規模言語モデル（LLM）でも、ソフトウェアエンジニアリングタスクの大部分をこなすことができないことが明らかになりました。研究者たちは、Upworkから1400以上のソフトウェアエンジニアリングタスクを集めた新しいベンチマークSWE-Lancerを使用しました。その結果、これらのモデルは表面的な問題しか解決できず、大規模プロジェクトのバグや根本原因を発見することはできなかったことがわかりました。LLMは高速ですが、正確性と信頼性が人間のプログラマーに取って代わるには不十分であり、OpenAIのCEOであるSam Altman氏の予測とは矛盾しています。

開発