코드 검색 벤치마킹: 과제와 Voyage AI의 접근 방식

2025-02-03

최신 코딩 어시스턴트는 코드 검색에 크게 의존하지만, 기존 평가 방법은 부족합니다. Voyage AI의 연구는 현재 데이터셋의 문제점을 강조합니다. 노이즈가 많은 레이블, 심층 알고리즘적 추론 평가 부족, 데이터 오염 등으로 모델 평가 결과가 신뢰할 수 없습니다. 이를 해결하기 위해 Voyage AI는 고품질 코드 검색 데이터셋을 생성하는 두 가지 방법을 제안합니다. 질문 답변 데이터셋을 재사용하고, GitHub 저장소와 이슈/티켓을 활용하는 것입니다. Voyage AI는 여러 프로그래밍 언어, 다양한 QA 데이터셋, 도메인별 벤치마크를 포함하는 자체 내부 벤치마킹 스위트를 구축하여 여러 코드 임베딩 모델을 평가했습니다. 그 결과 Voyage-code-3 모델이 최고 성능을 보였습니다.

(blog.voyageai.com)

개발 데이터셋

힐베르트 10번째 문제 확장: 더 넓은 환에 대한 결정 불가능성 증명

게임 취약점: Marvel Rivals를 통해 해커가 PC를 장악할 수 있음