دمج مؤشرات محددة من قبل المستخدم في ملفات Apache Parquet

2025-07-15

من الشائع الاعتقاد الخاطئ بأن ملفات Apache Parquet محدودة بالإحصائيات الأساسية ومرشحات Bloom. تكشف هذه المقالة عن كيفية تضمين مؤشرات مخصصة مباشرة في ملفات Parquet دون كسر التوافق. من خلال الاستفادة من بيانات التعريف في التذييل والعنوان بناءً على الإزاحة، يمكنك إضافة مؤشرات مثل قوائم القيم المميزة لأعمدة محددة، مما يحسن بشكل كبير أداء الاستعلامات، خاصةً بالنسبة للتنبؤات عالية الانتقائية. يوضح المؤلفون آلية ذلك ويقدمون مثالاً عمليًا باستخدام Apache DataFusion، مما يوضح كيفية تسلسل هذه المؤشرات المخصصة وتخزينها وقراءتها. وداعًا لتعقيدات ومخاطر المؤشرات الخارجية!

اقرأ المزيد

Apache DataFusion: محرك استعلامات قابل للتوسيع وقوي بلغة Rust

2025-01-16

Apache DataFusion هو محرك استعلامات قابل للتوسيع مكتوب بلغة Rust يستخدم Apache Arrow كتنسيق ذاكرة. يوفر واجهات برمجة تطبيقات SQL و DataFrame، ويتميز بأداء ممتاز ودعم مدمج لـ CSV و Parquet و JSON و Avro. يتميز DataFusion بوجود مخطط استعلامات كامل، بالإضافة إلى محرك تنفيذ عمودي، وبث، ومتعدد الخيوط، ومتجه، ومصادر بيانات مقسمة. وهو قابل للتخصيص بدرجة عالية، مما يسمح بإضافة مصادر بيانات، ولغات استعلامات، ووظائف، وعوامل تشغيل مخصصة، وأكثر من ذلك. تتضمن المشاريع الفرعية ذات الصلة DataFusion Python (وصلات Python)، و DataFusion Ray (نسخة موزعة)، و DataFusion Comet (مسرع Apache Spark).

اقرأ المزيد