Redis Vektorsätze: Replizierung der Hacker News Konto-Stilerkennung

2025-04-16

Inspiriert von einem drei Jahre alten Hacker News Beitrag über die Erkennung ähnlicher Konten mittels Kosinus-Ähnlichkeit, hat Antirez mit der neuen Vektorsatz-Funktionalität in Redis 8 RC1 das Experiment reproduziert. Er lud 10 GB an Hacker News Kommentar-Daten herunter, bereinigte und vorverarbeitete sie, um eine JSONL-Datei mit Nutzern und ihren Wortfrequenzvektoren zu erstellen. Anschließend normalisierte er die Wortfrequenzvektoren mit der Burrows-Delta-Methode und fügte sie in Redis Vektorsätze ein. Schließlich lassen sich mit dem VSIM-Befehl schnell ähnliche Nutzer mit ähnlichem Schreibstil finden. Der Projektcode wurde Open Source veröffentlicht und eine Online-Demo-Website ist verfügbar.

Entwicklung Stilerkennung