Benchmarking de Recuperação de Código: Desafios e Abordagem da Voyage AI

Assistentes de codificação modernos dependem muito da recuperação de código, mas os métodos de avaliação existentes são insuficientes. A pesquisa da Voyage AI destaca problemas com conjuntos de dados atuais, incluindo rótulos ruidosos, falta de avaliação de raciocínio algorítmico profundo e contaminação de dados, levando a avaliações de modelos não confiáveis. Para resolver isso, a Voyage AI propõe dois métodos para criar conjuntos de dados de recuperação de código de alta qualidade: reaproveitar conjuntos de dados de perguntas e respostas e aproveitar repositórios e problemas/solicitações do GitHub. A Voyage AI também construiu seu próprio conjunto de testes de referência interno, abrangendo várias linguagens de programação, vários conjuntos de dados de perguntas e respostas e benchmarks específicos de domínio, avaliando vários modelos de incorporação de código. O Voyage-code-3 surgiu como o modelo de melhor desempenho.