OpenAIが認める:最先端のAIモデルでも人間のプログラマーの代わりにはならない

2025-02-24
OpenAIが認める:最先端のAIモデルでも人間のプログラマーの代わりにはならない

OpenAIの新しい論文によると、GPT-4やClaude 3.5などの最先端の大規模言語モデル(LLM)でも、ソフトウェアエンジニアリングタスクの大部分をこなすことができないことが明らかになりました。研究者たちは、Upworkから1400以上のソフトウェアエンジニアリングタスクを集めた新しいベンチマークSWE-Lancerを使用しました。その結果、これらのモデルは表面的な問題しか解決できず、大規模プロジェクトのバグや根本原因を発見することはできなかったことがわかりました。LLMは高速ですが、正確性と信頼性が人間のプログラマーに取って代わるには不十分であり、OpenAIのCEOであるSam Altman氏の予測とは矛盾しています。

開発