Redisベクターセット:Hacker Newsアカウントのスタイル検出を再現
2025-04-16
コサイン類似度を用いた類似アカウントの検出に関する3年前のHacker Newsの投稿に触発され、AntirezはRedis 8 RC1の新しいベクターセット機能を用いて、この実験を再現しました。彼は10GBのHacker Newsコメントデータを取得し、クレンジングと前処理を行い、ユーザーと単語頻度ベクトルを含むJSONLファイルを生成しました。その後、Burrows-Delta法を用いて単語頻度ベクトルを正規化し、Redisベクターセットに挿入しました。最後に、VSIMコマンドを使用して、同様の記述スタイルを持つユーザーを迅速に見つけることができます。プロジェクトコードはオープンソース化されており、オンラインデモサイトも利用可能です。