محاذاة ميزات كثيرة الحدود مع توزيع البيانات: مشكلة الانتباه-المحاذاة في ML

2025-08-26
محاذاة ميزات كثيرة الحدود مع توزيع البيانات: مشكلة الانتباه-المحاذاة في ML

تتناول هذه التدوينة محاذاة ميزات كثيرة الحدود مع توزيع البيانات لتحسين أداء نموذج التعلم الآلي. تنتج القواعد المتعامدة ميزات إعلامية عندما تكون البيانات موزعة بشكلٍ منتظم، ولكن هذا ليس هو الحال مع البيانات الواقعية. يُعرض نهجان: خدعة رسم الخرائط، التي تُحوّل البيانات إلى توزيعٍ منتظم قبل تطبيق قاعدة متعامدة؛ والضرب في دالة مختارة بعناية لضبط دالة الوزن للقاعدة المتعامدة بحيث تتوافق مع توزيع البيانات. النهج الأول أكثر عملية، ويمكن تحقيقه باستخدام QuantileTransformer من مكتبة Scikit-Learn. أما الثاني فهو أكثر تعقيدًا، ويتطلب فهمًا رياضيًا أعمق وضبطًا دقيقًا. تُظهر التجارب على مجموعة بيانات الإسكان في كاليفورنيا أن الميزات شبه المتعامدة من النهج الأول تتفوق على القياس الأدنى-الأقصى التقليدي في الانحدار الخطي.

اقرأ المزيد

فضح خرافة كثيرات الحدود من الدرجة العالية في الانحدار

2025-04-22
فضح خرافة كثيرات الحدود من الدرجة العالية في الانحدار

يتحدى هذا المقال الاعتقاد الشائع بأن كثيرات الحدود من الدرجة العالية عرضة للانحراف المفرط ويصعب التحكم فيها في تعلم الآلة. ويجادل الكاتب بأن المشكلة ليست كثيرات الحدود من الدرجة العالية نفسها، بل استخدام دوال الأساس غير المناسبة، مثل أساس القاعدة القياسية. تُظهر التجارب التي تقارن بين القاعدة القياسية وقاعدة تشيبيشيف وقاعدة ليجندري وقاعدة بيرنشتاين في ملاءمة البيانات الضوضاء أن قاعدة بيرنشتاين، مع معاملاتها التي تشترك في نفس "الواحدات" وسهولة تنظيمها، تتجنب الانحراف المفرط بفعالية. حتى كثيرات الحدود من الدرجة العالية تُنتج ملاءمة ممتازة باستخدام قاعدة بيرنشتاين، مما يتطلب ضبطًا ضئيلاً لمعلمات فرط.

اقرأ المزيد