التعريب: محاربة التبسيط المفرط والبيانات المتناثرة

2025-09-21
التعريب: محاربة التبسيط المفرط والبيانات المتناثرة

يتناول هذا المقال مشكلة شائعة في معايرة النماذج: الانحدار المتساوي القياس، نظرًا لأن مجموعة بيانات المعايرة أصغر بكثير من مجموعة البيانات التدريبية الأصلية، مما يبسط توزيع الاحتمالات بشكل مفرط، مما يؤدي إلى فقدان التمييزات الدقيقة للنموذج. يحلل المقال هذه الظاهرة، وهي "التسطيح الناجم عن ندرة البيانات"، ويقترح عدة طرق تشخيصية للتمييز بين التبسيط المبرر بسبب الضوضاء والتبسيط المفرط بسبب قيود البيانات. وأخيرًا، يقدم حزمة Calibre، والتي من خلال تخفيف القيود المتساوية القياس أو استخدام نماذج أحادية اللون سلسة، تحافظ على دقة المعايرة مع الحفاظ على أكبر قدر ممكن من قدرة التمييز للنموذج الأصلي.

اقرأ المزيد

ترويض ذروة الطلب المتزامن: نهج مبدئي

2025-08-25
ترويض ذروة الطلب المتزامن: نهج مبدئي

يُمكن أن يؤدي الطلب المتزامن، حيث يطلب عدد كبير من العملاء الخدمة في وقت واحد تقريبًا، إلى إثقال كاهل حتى الأنظمة المجهزة تجهيزًا جيدًا. تُقدّم هذه المقالة نهجًا مبدئيًا للتخفيف من هذه المشكلة باستخدام الاهتزاز العشوائي لتوزيع الطلبات بمرور الوقت. من خلال حساب حجم نافذة آمنة (W)، يتم توزيع الطلبات بالتساوي، مما يقلل من معدل وصول الذروة. كما تناقش المقالة الاستفادة من التلميحات من جانب الخادم (مثل رؤوس Retry-After) وحدود معدل لتكرير الاستراتيجية، مع تحقيق التوازن بين استقرار النظام وإنصافه. يُصاغ النهج كمشكلة تحكم، مع التأكيد على ضرورة اتخاذ القرارات والتحقق القائم على القياس عن بُعد.

اقرأ المزيد
التطوير

اتزان المحتال: كيف كسرت الإعلانات المدفوعة بالعمولة إشارة الجودة

2025-07-19
اتزان المحتال: كيف كسرت الإعلانات المدفوعة بالعمولة إشارة الجودة

تتناول هذه الورقة البحثية كيفية قيام الإنترنت، وتحديدًا الإعلانات المدفوعة بالعمولة (CPA)، بتدمير آلية إشارة الجودة التقليدية في الإعلانات. تاريخيًا، كان البائعون ذوو الجودة العالية أكثر استعدادًا للاستثمار بكثافة في الإعلانات نظرًا للعوائد الأعلى على المدى الطويل. ومع ذلك، تسمح الإعلانات المدفوعة بالعمولة للبائعين ذوي الجودة المنخفضة بتمويل الإعلانات من إيرادات اليوم الأول، مما يقوض هذه الإشارة. تساهم عوامل مثل سهولة إنشاء العلامات التجارية، والعقوبات الخفيفة على المرتجعات، وضغط التصنيف، واعتماد المستهلكين على تقنيات الاستدلال على الأسعار في تحقيق "اتزان المحتال" حيث تهيمن المنتجات منخفضة الجودة. تقدم الورقة نموذجًا اقتصاديًا يوضح ذلك وتقترح حلولًا مثل معرفات المُصنّع الدائمة ورسوم CPA المُعدلة حسب نسبة المرتجعات لردع البائعين ذوي الجودة المنخفضة.

اقرأ المزيد

فتح البيانات الجدولية لأنظمة اللغات الكبيرة: نهج التقطير الميكانيكي

2025-05-09
فتح البيانات الجدولية لأنظمة اللغات الكبيرة: نهج التقطير الميكانيكي

تتميز نماذج اللغات الكبيرة (LLMs) ببراعتها في معالجة النصوص والصور، لكنها تواجه صعوبة في معالجة البيانات الجدولية. في الوقت الحالي، تعتمد نماذج اللغات الكبيرة بشكل أساسي على ملخصات إحصائية منشورة، دون الاستفادة الكاملة من المعرفة الموجودة في مجموعات البيانات الجدولية، مثل بيانات الاستبيانات. تقترح هذه المقالة نهجًا جديدًا يستخدم تقنيات التقطير الميكانيكي لإنشاء ملخصات أحادية المتغير وثنائية المتغير ومتعددة المتغيرات. يتم تعزيز ذلك من خلال مطالبة نموذج اللغات الكبيرة باقتراح أسئلة ذات صلة والتعلم من البيانات. تتضمن خطة العمل ثلاث مراحل: فهم بنية البيانات، وتحديد أنواع الأسئلة، وإنشاء ملخصات ميكانيكية ومرئيات. يقترح المؤلفون أن هذا النهج يمكن أن يحسن أنظمة توليد الاستجابات المعززة بالاسترجاع (RAG) ويكمل "معرفة العالم" التي قد تكون متحيزة، ويُوصون بالبدء بمستودعات أوراق البحث العلمي (مثل Harvard Dataverse) والبيانات الإدارية للتحقق من صحة هذه الطريقة.

اقرأ المزيد