Conjuntos de Vectores Redis: Replicando la Detección de Estilo de Cuenta de Hacker News
Inspirado en una publicación de Hacker News de hace tres años sobre la detección de cuentas similares usando similitud de coseno, Antirez, utilizando la nueva funcionalidad de conjuntos de vectores en Redis 8 RC1, replicó el experimento. Descargó 10 GB de datos de comentarios de Hacker News, los limpió y preprocesó para generar un archivo JSONL que contiene usuarios y sus vectores de frecuencia de palabras. Luego, utilizando el método Burrows-Delta, normalizó los vectores de frecuencia de palabras y los insertó en conjuntos de vectores Redis. Finalmente, utilizando el comando VSIM, se pueden encontrar rápidamente usuarios similares con estilos de escritura similares. El código del proyecto se ha hecho de código abierto, y hay un sitio web de demostración en línea disponible.