جودفاير تطلق أدوات قابلة للتفسير لنموذج لاما 3.3 70B

العلامات الشائعة：

الافتراضية أمان DNS التحقق الرسمي تحليل قابلية الوصول أخطاء المترجم تضارب الماكرو امتدادات الويب إطار عمل تطوير كومودور 64 بياسيك 2.0 جميع العلامات

2024-12-23

درب فريق جودفاير مُشفرات ذاتية مُتفرقة (SAEs) على نموذج لاما 3.3 70B، وأطلق النموذج المُفسّر عبر واجهة برمجة التطبيقات (API). يسمح هذا باستكشاف الفضاء الكامن للنموذج من خلال خريطة تفاعلية للميزات. يُظهر الفريق إمكانيات توجيه الميزات ويُدخِل تحسينات لتوجيه أسهل وأكثر موثوقية قائم على SAEs. على الرغم من إظهار التقدم في التوجيه، إلا أن القيود مُعترف بها، بما في ذلك التوتر بين توجيه الميزات ومهام التصنيف، واحتمالية تدهور استدعاء الحقائق عند مستويات قوة توجيه أعلى. تتضمن الأعمال المستقبلية صقل منهجيات التوجيه وتطوير تقييمات السلامة من أجل توسيع نطاق جهود القابلية للتفسير بشكل مسؤول.