AI 평가에 대한 자주 묻는 질문과 답변: 700명 이상의 엔지니어와 PM으로부터 얻은 교훈
2025-07-03
이 글에서는 700명이 넘는 엔지니어와 제품 관리자에게 AI 평가 과정을 가르치는 동안 자주 받았던 질문들을 요약합니다. RAG가 죽었는지 여부, 모델 선택, 주석 도구, 평가 방법론, 합성 데이터 생성, 기존 평가 도구의 부족 등을 다룹니다. 저자들은 오류 분석의 중요성을 강조하고, 리커트 척도보다 2진 평가를 권장하며, 사용자 지정 주석 도구 구축, 적절한 청크 크기 선택, RAG 시스템 평가에 대한 모범 사례를 공유합니다. 또한, 안전장치와 평가 도구의 차이점, 최소 실행 가능한 평가 설정, 에이전트 워크플로 평가, CI/CD 대 프로덕션 모니터링에서 평가의 다양한 용도에 대해 논의합니다.
개발
오류 분석