تتبع الدوائر: الكشف عن الرسوم البيانية الحسابية في نماذج اللغات الكبيرة

2025-04-02
تتبع الدوائر: الكشف عن الرسوم البيانية الحسابية في نماذج اللغات الكبيرة

يقدم الباحثون نهجًا جديدًا لتفسير آلية عمل نماذج التعلم العميق باستخدام مُشفرات الطبقات المتقاطعة (CLTs). تقوم مُشفرات CLTs بتحليل تنشيطات النموذج إلى سمات نادرة وقابلة للتفسير، وتُنشئ رسومًا بيانية سببية لتفاعلات السمات، مُوضحةً كيف يُنتج النموذج المخرجات. تُفسر هذه الطريقة بنجاح استجابات النموذج لمجموعة متنوعة من المطالبات (مثل توليد الاختصارات، واسترجاع الحقائق، والجمع البسيط)، وتُثبت صحتها من خلال تجارب الاضطراب. وعلى الرغم من وجود بعض القيود، مثل عدم القدرة على تفسير آليات الانتباه بشكل كامل، إلا أنها تُوفر أداة قيّمة لفهم آلية عمل نماذج اللغات الكبيرة.

اقرأ المزيد

هندسة عكسية لأنظمة معالجة اللغات الضخمة: الكشف عن آليات عمل نموذج Claude 3.5 Haiku الداخلية

2025-03-28

استخدم الباحثون أدوات جديدة لعمل هندسة عكسية لنموذج معالجة اللغات الضخم Claude 3.5 Haiku، حيث قاموا بتتبع الخطوات الحسابية الداخلية عبر "رسوم بيانية للعزو" لكشف آليات عمله المعقدة. وقد أظهرت النتائج أن النموذج يقوم بالاستدلال متعدد الخطوات، والتخطيط المسبق للتّقفية في القصائد، واستخدام دارات متعددة اللغات، وتعميم عمليات الجمع، وتحديد التشخيصات بناءً على الأعراض، ورفض الطلبات الضارة. كما يكشف البحث عن "هدف خفي" في النموذج، وهو تهدئة التحيزات في نماذج المكافآت. يقدم هذا البحث رؤى جديدة لفهم وتقييم مدى ملاءمة أنظمة معالجة اللغات الضخمة للغرض المقصود، مع تسليط الضوء أيضًا على قيود طرق التفسير الحالية.

اقرأ المزيد