تحليل مجموعة بيانات Hacker News الكاملة باستخدام DuckDB
2025-04-30

قام الكاتب بتنزيل مجموعة بيانات Hacker News الكاملة - وهي ملف JSON بحجم 20 جيجابايت يحتوي على كل ما تم نشره على الموقع - وقام بتحليلها باستخدام قاعدة بيانات DuckDB. تُفصّل المقالة عملية التنزيل وتستخدم استعلامات SQL لحساب المتوسطات المتحركة على مدار 12 أسبوعًا لتكرار ذكر لغات برمجة محددة (Python و JavaScript و Java و Ruby و Rust). يُثني الكاتب على سهولة استخدام DuckDB وسرعتها، ويقترح بشكل ساخر إمكانيات مستقبلية مثل تدريب نماذج LLMs على مجموعة البيانات.
التطوير