Compressão sem perdas de IDs de vetores melhora a busca aproximada de vizinhos mais próximos

2025-01-23
Compressão sem perdas de IDs de vetores melhora a busca aproximada de vizinhos mais próximos

Pesquisadores introduzem um esquema de compressão sem perdas para IDs de vetores para resolver o alto custo de armazenamento de índices na busca aproximada de vizinhos mais próximos. Aproveitando o fato de que a ordem dos IDs é irrelevante em muitas estruturas de índice e utilizando sistemas numéricos assimétricos ou árvores wavelet, o método alcança até 7x de compressão de IDs de vetores sem impactar a precisão ou o tempo de execução da busca. Isso resulta em uma redução de 30% no tamanho do índice para conjuntos de dados em escala de bilhões. Além disso, a abordagem também pode comprimir sem perdas códigos de vetores quantizados, explorando sub-otimalidades no algoritmo de quantização original.