LLM 열풍: 벤치마크와 현실의 괴리
2025-04-06
코드 보안 스캐닝에 AI 모델을 사용하는 스타트업은 2024년 6월 이후 벤치마크 점수는 상승했지만 실제적인 개선은 제한적이라는 것을 발견했습니다. 저자는 대규모 언어 모델의 발전이 경제적 유용성이나 일반화 능력에는 반영되지 않았으며, 공개적으로 발표된 주장과 모순된다고 주장합니다. 이는 AI 모델 평가 방법과 AI 랩의 능력 과장 가능성에 대한 우려를 불러일으킵니다. 저자는 벤치마크 점수가 아닌 현실 세계 애플리케이션의 성능에 초점을 맞춰야 하며, AI를 사회적 맥락에서 배포하기 전에 견고한 평가가 필요하다고 주장합니다.
AI
코드 보안