Webtagr - Technologienummer

Voyage-3.5: Embedding-Modelle der nächsten Generation mit überlegenem Preis-Leistungs-Verhältnis

2025-05-24

Voyage AI hat Voyage-3.5 und Voyage-3.5-lite veröffentlicht, seine Embedding-Modelle der nächsten Generation. Diese behalten die gleiche Größe wie ihre Vorgänger bei, bieten aber signifikante Verbesserungen der Retrieval-Qualität zu geringeren Kosten. Im Vergleich zu OpenAI v3-large zeigen Voyage-3.5 und Voyage-3.5-lite eine um 8,26 % bzw. 6,34 % höhere Retrieval-Qualität bei 2,2-fach bzw. 6,5-fach niedrigeren Kosten. Sie unterstützen mehrere Embedding-Dimensionen und Quantisierungsoptionen durch Matryoshka-Lernen und quantisierungsbewusstes Training und reduzieren so die Kosten der Vektor-Datenbank drastisch, während gleichzeitig eine höhere Genauigkeit beibehalten wird.

(blog.voyageai.com)

KI Embedding-Modelle

Benchmarking von Code-Retrieval: Herausforderungen und der Ansatz von Voyage AI

2025-02-03

Moderne Code-Assistenten verlassen sich stark auf Code-Retrieval, aber bestehende Bewertungsmethoden sind unzureichend. Die Forschung von Voyage AI hebt Probleme mit aktuellen Datensätzen hervor, darunter verrauschte Labels, das Fehlen einer Bewertung des tiefgehenden algorithmischen Denkens und Datenkontamination, was zu unzuverlässigen Modellbewertungen führt. Um dies zu beheben, schlägt Voyage AI zwei Methoden zur Erstellung hochwertiger Code-Retrieval-Datensätze vor: die Wiederverwendung von Frage-Antwort-Datensätzen und die Nutzung von GitHub-Repositories und Issues/Tickets. Voyage AI hat auch eine eigene interne Benchmark-Suite entwickelt, die mehrere Programmiersprachen, verschiedene Frage-Antwort-Datensätze und domänenspezifische Benchmarks umfasst und mehrere Code-Embedding-Modelle bewertet. Voyage-code-3 erwies sich als das leistungsstärkste Modell.

(blog.voyageai.com)

Entwicklung Datensätze

Voyage-code-3: Genauere Code-Retrieval mit geringeren Kosten

2025-01-14

Voyage AI hat Voyage-code-3 vorgestellt, ein Code-Retrieval-Modell der nächsten Generation, das OpenAI-v3-large und CodeSage-large auf 32 Datensätzen durchschnittlich um 13,80% und 16,81% übertrifft. Durch Matryoshka-Lernen und Quantisierung (int8 und binär) reduziert Voyage-code-3 die Speicher- und Suchkosten drastisch, bei minimalem Verlust der Retrieval-Qualität. Es unterstützt Einbettungen von 2048, 1024, 512 und 256 Dimensionen sowie verschiedene Quantisierungsformate und verfügt über eine Kontextlänge von 32K Tokens. Trainiert auf einem massiven, diversen Code-Korpus, zeichnet sich Voyage-code-3 durch hervorragende Code-Retrieval-Leistung aus, insbesondere bei algorithmischem Denken und nuancierten Syntaxregeln, und wurde umfassend auf Robustheit und Genauigkeit getestet.

(blog.voyageai.com)

KI Code-Retrieval Einbettungsmodell