تتبع الدوائر: الكشف عن الرسوم البيانية الحسابية في نماذج اللغات الكبيرة

2025-04-02
تتبع الدوائر: الكشف عن الرسوم البيانية الحسابية في نماذج اللغات الكبيرة

يقدم الباحثون نهجًا جديدًا لتفسير آلية عمل نماذج التعلم العميق باستخدام مُشفرات الطبقات المتقاطعة (CLTs). تقوم مُشفرات CLTs بتحليل تنشيطات النموذج إلى سمات نادرة وقابلة للتفسير، وتُنشئ رسومًا بيانية سببية لتفاعلات السمات، مُوضحةً كيف يُنتج النموذج المخرجات. تُفسر هذه الطريقة بنجاح استجابات النموذج لمجموعة متنوعة من المطالبات (مثل توليد الاختصارات، واسترجاع الحقائق، والجمع البسيط)، وتُثبت صحتها من خلال تجارب الاضطراب. وعلى الرغم من وجود بعض القيود، مثل عدم القدرة على تفسير آليات الانتباه بشكل كامل، إلا أنها تُوفر أداة قيّمة لفهم آلية عمل نماذج اللغات الكبيرة.