Évaluation de la récupération de code : défis et approche de Voyage AI

Les assistants de codage modernes reposent fortement sur la récupération de code, mais les méthodes d'évaluation existantes sont insuffisantes. La recherche de Voyage AI met en évidence des problèmes avec les ensembles de données actuels, notamment des étiquettes bruitées, l'absence d'évaluation du raisonnement algorithmique profond et la contamination des données, ce qui conduit à des évaluations de modèles non fiables. Pour y remédier, Voyage AI propose deux méthodes pour créer des ensembles de données de récupération de code de haute qualité : réutiliser les ensembles de données de questions-réponses et exploiter les référentiels et les problèmes/tickets GitHub. Voyage AI a également construit sa propre suite de tests de référence interne, englobant plusieurs langages de programmation, divers ensembles de données de questions-réponses et des benchmarks spécifiques à un domaine, évaluant plusieurs modèles d'intégration de code. Voyage-code-3 s'est avéré être le modèle le plus performant.