Compresión sin pérdidas de IDs de vectores mejora la búsqueda aproximada de vecinos más cercanos

2025-01-23
Compresión sin pérdidas de IDs de vectores mejora la búsqueda aproximada de vecinos más cercanos

Los investigadores presentan un esquema de compresión sin pérdidas para los IDs de vectores para abordar el alto costo de almacenamiento de los índices en la búsqueda aproximada de vecinos más cercanos. Aprovechando el hecho de que el orden de los IDs es irrelevante en muchas estructuras de índice y utilizando sistemas numéricos asimétricos o árboles wavelet, el método logra hasta 7 veces de compresión de los IDs de vectores sin afectar la precisión ni el tiempo de ejecución de la búsqueda. Esto se traduce en una reducción del 30% en el tamaño del índice para conjuntos de datos a escala de miles de millones. Además, el enfoque también puede comprimir sin pérdidas los códigos de vectores cuantizados, explotando las suboptimalidades en el algoritmo de cuantización original.