OpenAI, Reddit의 r/ChangeMyView를 사용하여 AI 설득력 벤치마킹

2025-02-02

OpenAI는 새로운 추론 모델 o3-mini의 설득력을 평가하기 위해 Reddit의 r/ChangeMyView 서브레딧을 활용했습니다. 사용자가 의견을 게시하고 토론하는 이 서브레딧은 AI가 생성한 응답이 의견을 바꿀 수 있는 능력을 평가하기 위한 독특한 데이터 세트를 제공했습니다. o3-mini는 o1이나 GPT-4o와 같은 이전 모델을 크게 능가하지는 않았지만, 모두 강력한 설득력을 보여주었고, 인간 성능의 상위 80~90%에 속했습니다. OpenAI는 목표가 매우 설득력 있는 AI를 만드는 것이 아니라 과도하게 설득력 있는 모델과 관련된 위험을 줄이는 것이라고 강조합니다. 이 벤치마킹은 AI 모델 개발을 위한 고품질 데이터 세트를 확보하는 지속적인 과제를 보여줍니다.

(techcrunch.com)

AI 설득력

PL/Rust: Rust로 PostgreSQL 함수의 네이티브 성능 구현

DeepSeek-R1: 중국의 AI 부상과 오픈소스의 승리