ضبط نماذج اللغات الكبيرة بدقة دون التعلم المعزز: مقدمة لتحسين التفضيلات المباشر (DPO)

العلامات الشائعة：

الافتراضية أمان DNS التحقق الرسمي تحليل قابلية الوصول أخطاء المترجم تضارب الماكرو امتدادات الويب إطار عمل تطوير كومودور 64 بياسيك 2.0 جميع العلامات

2025-05-28

تدعم منصة Together الآن تحسين التفضيلات المباشر (DPO)، وهي تقنية لمواءمة نماذج اللغات مع تفضيلات المستخدمين دون الحاجة إلى التعلم المعزز. يقوم DPO بتدريب النماذج مباشرةً على بيانات التفضيلات - الطلبات، والاستجابات المفضلة، والاستجابات غير المفضلة - مما ينتج عنه مساعدين ذكاء اصطناعي أكثر فائدة ودقة وتخصيصًا. بالمقارنة مع طرق التعلم المعزز التقليدية، فإن DPO أبسط وأكثر كفاءة وسهولة في التنفيذ. تشرح هذه المقالة آلية عمل DPO، وكيفية استخدامه، وأمثلة على الأكواد، مع التوصية بعملية من مرحلتين: ضبط دقيق تحت الإشراف (SFT) متبوعًا بتحسين DPO.