ضبط نماذج اللغات الكبيرة بدقة دون التعلم المعزز: مقدمة لتحسين التفضيلات المباشر (DPO)
2025-05-28
تدعم منصة Together الآن تحسين التفضيلات المباشر (DPO)، وهي تقنية لمواءمة نماذج اللغات مع تفضيلات المستخدمين دون الحاجة إلى التعلم المعزز. يقوم DPO بتدريب النماذج مباشرةً على بيانات التفضيلات - الطلبات، والاستجابات المفضلة، والاستجابات غير المفضلة - مما ينتج عنه مساعدين ذكاء اصطناعي أكثر فائدة ودقة وتخصيصًا. بالمقارنة مع طرق التعلم المعزز التقليدية، فإن DPO أبسط وأكثر كفاءة وسهولة في التنفيذ. تشرح هذه المقالة آلية عمل DPO، وكيفية استخدامه، وأمثلة على الأكواد، مع التوصية بعملية من مرحلتين: ضبط دقيق تحت الإشراف (SFT) متبوعًا بتحسين DPO.
الذكاء الاصطناعي
ضبط دقيق لنماذج اللغات الكبيرة