نماذج اللغات الكبيرة تفشل في لعبة Set، بينما نماذج الاستدلال تنجح

2025-02-19
نماذج اللغات الكبيرة تفشل في لعبة Set، بينما نماذج الاستدلال تنجح

أجرت تجربة لاختبار قدرات نماذج اللغات الكبيرة (LLMs) في الاستدلال في لعبة الورق Set. تتطلب لعبة Set تحديد مجموعات من ثلاث أوراق من بين اثنتي عشرة ورقة، بناءً على قواعد محددة تتعلق بالشكل، واللون، والعدد، والتظليل. فشلت نماذج LLMs مثل GPT-4o و Sonnet-3.5 و Mistral في تحديد مجموعات صحيحة بشكل ثابت، حيث اقترحت في كثير من الأحيان مجموعات غير صالحة أو زعمت عدم وجود مجموعات. ومع ذلك، نجحت نماذج الاستدلال الأحدث، DeepThink-R1 و o3-mini، في حل المشكلة، مما أظهر قدرات استدلال منطقي متفوقة. وهذا يبرز قيدًا في نماذج LLMs في المهام المنطقية المعقدة، حتى مع تفوقها في معالجة اللغات الطبيعية، بينما تُظهر نماذج الاستدلال المتخصصة ميزة واضحة.

الذكاء الاصطناعي لعبة Set