LLMブーム:ベンチマークと現実の乖離
2025-04-06
コードのセキュリティスキャンにAIモデルを利用するスタートアップ企業は、2024年6月以降、ベンチマークスコアは上昇しているものの、実際的な改善は限定的であることを発見しました。著者は、大規模言語モデルの進歩が経済的有効性や汎化能力には反映されておらず、公表されている主張と矛盾していると主張しています。これは、AIモデルの評価方法と、AIラボによる能力の誇張の可能性に関する懸念を引き起こします。著者は、ベンチマークスコアではなく、現実世界のアプリケーションのパフォーマンスに焦点を当てるべきであり、AIを社会的な文脈で展開する前に、堅牢な評価が必要であると主張しています。
AI
コードセキュリティ