فتح البيانات الجدولية لأنظمة اللغات الكبيرة: نهج التقطير الميكانيكي
تتميز نماذج اللغات الكبيرة (LLMs) ببراعتها في معالجة النصوص والصور، لكنها تواجه صعوبة في معالجة البيانات الجدولية. في الوقت الحالي، تعتمد نماذج اللغات الكبيرة بشكل أساسي على ملخصات إحصائية منشورة، دون الاستفادة الكاملة من المعرفة الموجودة في مجموعات البيانات الجدولية، مثل بيانات الاستبيانات. تقترح هذه المقالة نهجًا جديدًا يستخدم تقنيات التقطير الميكانيكي لإنشاء ملخصات أحادية المتغير وثنائية المتغير ومتعددة المتغيرات. يتم تعزيز ذلك من خلال مطالبة نموذج اللغات الكبيرة باقتراح أسئلة ذات صلة والتعلم من البيانات. تتضمن خطة العمل ثلاث مراحل: فهم بنية البيانات، وتحديد أنواع الأسئلة، وإنشاء ملخصات ميكانيكية ومرئيات. يقترح المؤلفون أن هذا النهج يمكن أن يحسن أنظمة توليد الاستجابات المعززة بالاسترجاع (RAG) ويكمل "معرفة العالم" التي قد تكون متحيزة، ويُوصون بالبدء بمستودعات أوراق البحث العلمي (مثل Harvard Dataverse) والبيانات الإدارية للتحقق من صحة هذه الطريقة.