Webtagr - 기술 뉴스 다이제스트

Voyage-3.5: 비용 대비 성능이 뛰어난 차세대 임베딩 모델

2025-05-24

Voyage AI는 차세대 임베딩 모델인 Voyage-3.5와 Voyage-3.5-lite를 출시했습니다. 이 모델들은 이전 모델과 같은 크기를 유지하면서도 저렴한 비용으로 검색 품질을 크게 향상시킵니다. OpenAI의 v3-large와 비교했을 때, Voyage-3.5와 Voyage-3.5-lite는 각각 8.26%와 6.34%의 검색 품질 향상을 보이며, 비용은 각각 2.2배와 6.5배 저렴합니다. Matryoshka 학습과 양자화 인식 훈련을 통해 여러 임베딩 차원과 양자화 옵션을 지원하여 벡터 데이터베이스 비용을 대폭 절감하면서 동시에 우수한 정확도를 유지합니다.

(blog.voyageai.com)

AI

코드 검색 벤치마킹: 과제와 Voyage AI의 접근 방식

2025-02-03

최신 코딩 어시스턴트는 코드 검색에 크게 의존하지만, 기존 평가 방법은 부족합니다. Voyage AI의 연구는 현재 데이터셋의 문제점을 강조합니다. 노이즈가 많은 레이블, 심층 알고리즘적 추론 평가 부족, 데이터 오염 등으로 모델 평가 결과가 신뢰할 수 없습니다. 이를 해결하기 위해 Voyage AI는 고품질 코드 검색 데이터셋을 생성하는 두 가지 방법을 제안합니다. 질문 답변 데이터셋을 재사용하고, GitHub 저장소와 이슈/티켓을 활용하는 것입니다. Voyage AI는 여러 프로그래밍 언어, 다양한 QA 데이터셋, 도메인별 벤치마크를 포함하는 자체 내부 벤치마킹 스위트를 구축하여 여러 코드 임베딩 모델을 평가했습니다. 그 결과 Voyage-code-3 모델이 최고 성능을 보였습니다.

(blog.voyageai.com)

개발 데이터셋

Voyage-code-3: 더욱 정확한 코드 검색, 낮은 비용으로

2025-01-14

Voyage AI는 차세대 코드 검색 임베딩 모델인 Voyage-code-3을 공개했습니다. 32개의 데이터 세트에서 OpenAI-v3-large와 CodeSage-large를 평균 13.80%와 16.81% 앞질렀습니다. Matryoshka 학습과 양자화(int8 및 이진)를 활용하여 검색 품질에 대한 영향을 최소화하면서 스토리지 및 검색 비용을 대폭 줄였습니다. 2048, 1024, 512, 256차원 임베딩과 다양한 양자화 형식을 지원하며, 32K 토큰의 컨텍스트 길이를 자랑합니다. 대규모의 다양한 코드 코퍼스로 학습된 Voyage-code-3는 특히 알고리즘적 추론과 미묘한 구문 규칙 처리에서 뛰어난 코드 검색 성능을 보이며, 강건성과 정확성이 엄격하게 평가되었습니다.

(blog.voyageai.com)

AI 임베딩 모델