自称「初のAIソフトウェアエンジニア」が現実世界のテストで惨敗
2025-01-26

初のAIソフトウェアエンジニアと謳われたDevinは、最近の評価で期待外れに終わった。エンドツーエンドでのアプリ構築とバグの自動修正を謳っていたにもかかわらず、20個のタスクのうち成功したのはわずか3個だった。テスト担当者は、Devinが単純なタスクでも苦労し、技術的な行き詰まりに陥ったり、不可能な解決策を探求したりするのを発見した。洗練されたユーザーエクスペリエンスを提供する一方で、成功率の低さと達成不可能な目標に時間を費やす傾向は、現在のAI技術の限界を浮き彫りにし、AIツールに関する過剰な期待に対する懸念を引き起こしている。