ما وراء قواعد بيانات المتجهات: معالجة فعالة لدمج النصوص باستخدام Parquet وPolars
2025-02-24

تقدم هذه المقالة طريقة لمعالجة دمج النصوص بكفاءة دون الاعتماد على قواعد بيانات المتجهات. يستخدم الكاتب ملفات Parquet لتخزين البيانات الجدولية التي تحتوي على دمج بطاقات Magic: The Gathering وبياناتها الوصفية، ويستخدم مكتبة Polars للبحث السريع عن التشابه وفلترة البيانات. تُعد ميزة النسخ الصفرية في Polars ودعمها الممتاز للبيانات المتداخلة هذه الطريقة أسرع وأكثر كفاءة من طرق CSV أو Pickle التقليدية، مع الحفاظ على أداء عالٍ حتى عند تصفية مجموعة البيانات. يقارن الكاتب طرق التخزين الأخرى مثل CSV وPickle وNumPy، ويخلص إلى أن Parquet مع Polars هو الخيار الأمثل للتعامل مع دمج النصوص متوسطة الحجم، حيث تصبح قواعد بيانات المتجهات ضرورية فقط لمجموعات البيانات الضخمة للغاية.
التطوير
دمج النصوص