مجموعات المتجهات Redis: تكرار الكشف عن أسلوب حساب Hacker News

2025-04-16

مستوحى من مشاركة على Hacker News عمرها ثلاث سنوات حول اكتشاف الحسابات المتشابهة باستخدام تشابه جيب التمام، قام Antirez، باستخدام وظيفة مجموعة المتجهات الجديدة في Redis 8 RC1، بتكرار التجربة. قام بتنزيل 10 غيغابايت من بيانات التعليقات على Hacker News، وقام بتنظيفها ومعالجتها مسبقًا لإنشاء ملف JSONL يحتوي على المستخدمين ومتجهات تردد الكلمات الخاصة بهم. ثم، باستخدام طريقة Burrows-Delta، قام بتطبيع متجهات تردد الكلمات وأدخلها في مجموعات متجهات Redis. أخيرًا، باستخدام الأمر VSIM، يمكن العثور بسرعة على مستخدمين متشابهين بنمط كتابة مشابه. تم نشر رمز المشروع مفتوح المصدر، وهناك موقع توضيحي عبر الإنترنت متاح.