인류의 마지막 시험: 획기적인 AI 벤치마크

2025-01-23
인류의 마지막 시험: 획기적인 AI 벤치마크

Scale AI와 인공지능 안전 센터(CAIS)는 AI 지식의 한계를 시험하기 위해 고안된 새로운 벤치마크인 "인류의 마지막 시험" 결과를 발표했습니다. 다양한 분야에 걸쳐 3,000개가 넘는 전문가 수준의 질문으로 구성된 이 시험에서 GPT-4, Claude 3.5, Gemini 1.5와 같은 최첨단 AI 모델조차도 질문의 10% 미만만 정확하게 답변할 수 있었습니다. 이는 복잡한 추론 능력의 큰 차이를 보여줍니다. 이 벤치마크는 기존 테스트에서는 뛰어난 결과를 보이지만 새로운 문제에는 어려움을 겪는 모델의 문제인 "벤치마크 포화" 문제를 해결합니다. 이 데이터 세트는 AI 연구 개발을 추진하고 AI의 현재 상태와 미래 방향에 대한 귀중한 통찰력을 제공하기 위해 공개될 것입니다.