جودفاير تطلق أدوات قابلة للتفسير لنموذج لاما 3.3 70B
2024-12-23
درب فريق جودفاير مُشفرات ذاتية مُتفرقة (SAEs) على نموذج لاما 3.3 70B، وأطلق النموذج المُفسّر عبر واجهة برمجة التطبيقات (API). يسمح هذا باستكشاف الفضاء الكامن للنموذج من خلال خريطة تفاعلية للميزات. يُظهر الفريق إمكانيات توجيه الميزات ويُدخِل تحسينات لتوجيه أسهل وأكثر موثوقية قائم على SAEs. على الرغم من إظهار التقدم في التوجيه، إلا أن القيود مُعترف بها، بما في ذلك التوتر بين توجيه الميزات ومهام التصنيف، واحتمالية تدهور استدعاء الحقائق عند مستويات قوة توجيه أعلى. تتضمن الأعمال المستقبلية صقل منهجيات التوجيه وتطوير تقييمات السلامة من أجل توسيع نطاق جهود القابلية للتفسير بشكل مسؤول.