Ensembles de vecteurs Redis : réplication de la détection de style de compte Hacker News
Inspiré par un article de Hacker News vieux de trois ans sur la détection de comptes similaires à l'aide de la similarité cosinus, Antirez, utilisant la nouvelle fonctionnalité d'ensembles de vecteurs dans Redis 8 RC1, a reproduit l'expérience. Il a téléchargé 10 Go de données de commentaires Hacker News, les a nettoyées et prétraitées pour générer un fichier JSONL contenant les utilisateurs et leurs vecteurs de fréquence de mots. Ensuite, utilisant la méthode Burrows-Delta, il a normalisé les vecteurs de fréquence de mots et les a insérés dans des ensembles de vecteurs Redis. Enfin, en utilisant la commande VSIM, il est possible de trouver rapidement des utilisateurs similaires ayant des styles d'écriture similaires. Le code du projet a été open-sourcé, et un site de démonstration en ligne est disponible.