تتبع الدوائر: الكشف عن الرسوم البيانية الحسابية في نماذج اللغات الكبيرة

العلامات الشائعة：

الافتراضية أمان DNS التحقق الرسمي تحليل قابلية الوصول أخطاء المترجم تضارب الماكرو امتدادات الويب إطار عمل تطوير كومودور 64 بياسيك 2.0 جميع العلامات

2025-04-02

يقدم الباحثون نهجًا جديدًا لتفسير آلية عمل نماذج التعلم العميق باستخدام مُشفرات الطبقات المتقاطعة (CLTs). تقوم مُشفرات CLTs بتحليل تنشيطات النموذج إلى سمات نادرة وقابلة للتفسير، وتُنشئ رسومًا بيانية سببية لتفاعلات السمات، مُوضحةً كيف يُنتج النموذج المخرجات. تُفسر هذه الطريقة بنجاح استجابات النموذج لمجموعة متنوعة من المطالبات (مثل توليد الاختصارات، واسترجاع الحقائق، والجمع البسيط)، وتُثبت صحتها من خلال تجارب الاضطراب. وعلى الرغم من وجود بعض القيود، مثل عدم القدرة على تفسير آليات الانتباه بشكل كامل، إلا أنها تُوفر أداة قيّمة لفهم آلية عمل نماذج اللغات الكبيرة.