هندسة عكسية لأنظمة معالجة اللغات الضخمة: الكشف عن آليات عمل نموذج Claude 3.5 Haiku الداخلية

2025-03-28

استخدم الباحثون أدوات جديدة لعمل هندسة عكسية لنموذج معالجة اللغات الضخم Claude 3.5 Haiku، حيث قاموا بتتبع الخطوات الحسابية الداخلية عبر "رسوم بيانية للعزو" لكشف آليات عمله المعقدة. وقد أظهرت النتائج أن النموذج يقوم بالاستدلال متعدد الخطوات، والتخطيط المسبق للتّقفية في القصائد، واستخدام دارات متعددة اللغات، وتعميم عمليات الجمع، وتحديد التشخيصات بناءً على الأعراض، ورفض الطلبات الضارة. كما يكشف البحث عن "هدف خفي" في النموذج، وهو تهدئة التحيزات في نماذج المكافآت. يقدم هذا البحث رؤى جديدة لفهم وتقييم مدى ملاءمة أنظمة معالجة اللغات الضخمة للغرض المقصود، مع تسليط الضوء أيضًا على قيود طرق التفسير الحالية.