Conjuntos de Vetores Redis: Replicando a Detecção de Estilo de Conta do Hacker News

2025-04-16

Inspirado por uma postagem de três anos no Hacker News sobre a detecção de contas semelhantes usando similaridade de cosseno, Antirez, usando a nova funcionalidade de conjunto de vetores no Redis 8 RC1, replicou o experimento. Ele baixou 10 GB de dados de comentários do Hacker News, limpou e pré-processou-os para gerar um arquivo JSONL contendo usuários e seus vetores de frequência de palavras. Em seguida, usando o método Burrows-Delta, ele normalizou os vetores de frequência de palavras e os inseriu em conjuntos de vetores Redis. Finalmente, usando o comando VSIM, usuários semelhantes com estilos de escrita semelhantes podem ser encontrados rapidamente. O código do projeto foi open-sourced, e um site de demonstração online está disponível.

Desenvolvimento Detecção de Estilo