Benchmarking von Code-Retrieval: Herausforderungen und der Ansatz von Voyage AI

2025-02-03
Benchmarking von Code-Retrieval: Herausforderungen und der Ansatz von Voyage AI

Moderne Code-Assistenten verlassen sich stark auf Code-Retrieval, aber bestehende Bewertungsmethoden sind unzureichend. Die Forschung von Voyage AI hebt Probleme mit aktuellen Datensätzen hervor, darunter verrauschte Labels, das Fehlen einer Bewertung des tiefgehenden algorithmischen Denkens und Datenkontamination, was zu unzuverlässigen Modellbewertungen führt. Um dies zu beheben, schlägt Voyage AI zwei Methoden zur Erstellung hochwertiger Code-Retrieval-Datensätze vor: die Wiederverwendung von Frage-Antwort-Datensätzen und die Nutzung von GitHub-Repositories und Issues/Tickets. Voyage AI hat auch eine eigene interne Benchmark-Suite entwickelt, die mehrere Programmiersprachen, verschiedene Frage-Antwort-Datensätze und domänenspezifische Benchmarks umfasst und mehrere Code-Embedding-Modelle bewertet. Voyage-code-3 erwies sich als das leistungsstärkste Modell.

Entwicklung Datensätze