لماذا لا يُعد HNSW الحل الأمثل لقواعد بيانات المتجهات: صعود IVF

2024-12-23

تُعد خوارزمية HNSW شائعة في قواعد بيانات المتجهات لسرعتها ودقتها في البحث عن تشابه المتجهات، لكنها تواجه قيودًا في التطبيقات واسعة النطاق نظرًا لطبيعتها كثيفة الاستخدام للذاكرة. وتجادل هذه المقالة بأن البدائل القائمة على القرص، مثل IVF (مؤشر الملف المعكوس)، وخاصة عند دمجها مع تقنيات الكميّة (RaBitQ وPQ وSQ وScaNN)، توفر سرعة وقابلية للتوسع أعلى لمجموعات البيانات الضخمة. ويُقلل IVF، من خلال قياس المتجهات وضغطها، من مساحة الذاكرة المستخدمة، ويستخدم استباق التحميل والمسح المتسلسل بكفاءة للبحث أسرع بكثير. كما أن تكاليف الإدراج والحذف أقل. وعلى الرغم من تفوق HNSW في التطبيقات الأصغر حجمًا، إلا أن IVF مع الكميّة يظهر كخيار أكثر ملاءمة لمجموعات البيانات الضخمة.