PgDog: مشروع مفتوح المصدر للتقسيم المتعدد في pgvector

2025-03-26
PgDog: مشروع مفتوح المصدر للتقسيم المتعدد في pgvector

يصبح توسيع نطاق pgvector لما يتجاوز مليون دمج أمرًا صعبًا بسبب بطء إنشاء الفهرس. تُقدم هذه المقالة PgDog، وهو مشروع مفتوح المصدر يقوم بتقسيم فهرس pgvector. من خلال الاستفادة من قدرات التجميع المتأصلة في IVFFlat، يوزع PgDog أقسام مساحة المتجهات على أجهزة متعددة. يتم توجيه متجهات الاستعلام إلى أجزاء مناسبة بناءً على قربها من مراكز الكتلة، المحسوبة باستخدام scikit-learn، مما يحسن بشكل كبير سرعة البحث ومعدل الاستدعاء. تتضمن تفاصيل التنفيذ حساب مراكز الكتلة، ودالة التقسيم المخصصة، وتحليل SQL باستخدام pg_query. تُظهر التجارب فعالية PgDog، حيث تقدم تحسينات مثل الاستعلامات المتوازية عبر الأجزاء وتخصيص مراكز الكتلة المُحسّن. يشمل العمل المستقبلي دعم المزيد من خوارزميات المسافة وتعليمات SIMD لحسابات أسرع.