Evaluación de la Recuperación de Código: Desafíos y el Enfoque de Voyage AI
Los asistentes de codificación modernos dependen en gran medida de la recuperación de código, pero los métodos de evaluación existentes son insuficientes. La investigación de Voyage AI destaca problemas con los conjuntos de datos actuales, incluyendo etiquetas ruidosas, falta de evaluación del razonamiento algorítmico profundo y contaminación de datos, lo que lleva a evaluaciones de modelos poco fiables. Para abordar esto, Voyage AI propone dos métodos para crear conjuntos de datos de recuperación de código de alta calidad: reutilizar conjuntos de datos de preguntas y respuestas y aprovechar repositorios y problemas/entradas de GitHub. Voyage AI también construyó su propio conjunto de pruebas de referencia interno, que abarca varios lenguajes de programación, varios conjuntos de datos de preguntas y respuestas y benchmarks específicos de dominio, evaluando varios modelos de incrustación de código. Voyage-code-3 surgió como el modelo con mejor rendimiento.