Redis向量集:重现Hacker News账号风格识别

2025-04-16

作者Antirez受到三年前Hacker News一篇关于使用余弦相似度检测相似账号的文章启发,利用Redis 8 RC1中新加入的向量集功能,重现了这一实验。他下载了10GB的Hacker News评论数据,经过数据清洗和预处理,生成了包含用户和其词频向量的JSONL文件。随后,他利用Burrows-Delta方法,将词频向量标准化,并将其插入Redis向量集。最终,通过VSIM命令,可以快速查找具有相似写作风格的用户账号。该项目代码已开源,并提供了一个在线演示网站。

开发 风格识别