Compression sans perte des ID de vecteurs améliore la recherche approximative des plus proches voisins

Des chercheurs présentent un schéma de compression sans perte pour les ID de vecteurs afin de résoudre le coût de stockage élevé des index dans la recherche approximative des plus proches voisins. En exploitant le fait que l'ordre des ID est sans importance dans de nombreuses structures d'index et en utilisant des systèmes numériques asymétriques ou des arbres à ondelettes, la méthode permet d'atteindre jusqu'à 7 fois la compression des ID de vecteurs sans affecter la précision ni le temps d'exécution de la recherche. Cela se traduit par une réduction de 30 % de la taille de l'index pour les ensembles de données à l'échelle du milliard. De plus, l'approche peut également compresser sans perte les codes de vecteurs quantifiés en exploitant les sous-optimalités de l'algorithme de quantification original.