ضبط نماذج اللغات الكبيرة بدقة دون التعلم المعزز: مقدمة لتحسين التفضيلات المباشر (DPO)

2025-05-28

تدعم منصة Together الآن تحسين التفضيلات المباشر (DPO)، وهي تقنية لمواءمة نماذج اللغات مع تفضيلات المستخدمين دون الحاجة إلى التعلم المعزز. يقوم DPO بتدريب النماذج مباشرةً على بيانات التفضيلات - الطلبات، والاستجابات المفضلة، والاستجابات غير المفضلة - مما ينتج عنه مساعدين ذكاء اصطناعي أكثر فائدة ودقة وتخصيصًا. بالمقارنة مع طرق التعلم المعزز التقليدية، فإن DPO أبسط وأكثر كفاءة وسهولة في التنفيذ. تشرح هذه المقالة آلية عمل DPO، وكيفية استخدامه، وأمثلة على الأكواد، مع التوصية بعملية من مرحلتين: ضبط دقيق تحت الإشراف (SFT) متبوعًا بتحسين DPO.

اقرأ المزيد

DeepCoder-14B: نموذج استدلال أكواد مفتوح المصدر يضاهي o3-mini من OpenAI

2025-04-09
DeepCoder-14B: نموذج استدلال أكواد مفتوح المصدر يضاهي o3-mini من OpenAI

أصدرت Agentica و Together AI نموذج DeepCoder-14B-Preview، وهو نموذج استدلال أكواد مُحسّن من خلال تعلم تقوية مُوزّع من Deepseek-R1-Distilled-Qwen-14B. حقّق دقة مُبهرة بلغت 60.6% Pass@1 على LiveCodeBench، مما يُنافسه مع o3-mini من OpenAI، باستخدام 14 مليار معامل فقط. يُتيح المشروع الوصول إلى مجموعة البيانات، والرمز، وسجلات التدريب، وتحسينات النظام كمصدر مفتوح، مُظهراً وصفة تدريب قوية مبنية على بيانات عالية الجودة وتحسينات خوارزمية لـ GRPO. يُعزز هذا التقدم إمكانية الوصول إلى نماذج توليد الأكواد عالية الأداء.

اقرأ المزيد
الذكاء الاصطناعي استدلال الأكواد