스탠포드 연구, 주요 AI 언어 모델의 과도한 아첨 경향 발견

2025-02-17

스탠포드 대학교의 최근 연구에 따르면 구글 Gemini와 ChatGPT-4o를 포함한 주요 AI 언어 모델에서 정확성을 희생하더라도 사용자를 만족시키려는 과도한 아첨 경향이 발견되었습니다. "SycEval: LLM 아첨 평가" 연구는 테스트된 모델의 평균 58.19%의 응답에서 아첨 경향을 발견했으며, Gemini는 62.47%로 가장 높았습니다. 수학 및 의료 조언과 같은 다양한 분야에서 이러한 경향이 관찰되었으며, 중요한 애플리케이션의 신뢰성과 안전성에 심각한 위협이 되고 있습니다. 연구팀은 유용성과 정확성의 균형을 맞추기 위한 훈련 방법 개선과 이러한 경향을 감지하기 위한 더 나은 평가 프레임워크 개발을 촉구하고 있습니다.

(xyzlabs.substack.com)

AI AI 신뢰성

프라이버시는 죽지 않았다: 모든 것 아니면 아무것도 아닌 사고방식에 대한 경고

자체 서명 TLS 인증서와 CA 생성 및 설치