LLMs scheitern bei Set, Reasoning-Modelle siegen
Ein Experiment testete die Fähigkeiten großer Sprachmodelle (LLMs) im Kartenspiel Set. Set erfordert das Identifizieren von Dreiergruppen aus zwölf Karten, basierend auf spezifischen Regeln zu Form, Farbe, Anzahl und Schattierung. LLMs wie GPT-4o, Sonnet-3.5 und Mistral scheiterten daran, konsistent korrekte Gruppen zu identifizieren und schlugen oft ungültige Kombinationen vor oder behaupteten, es gäbe keine Gruppen. Neuere Reasoning-Modelle, DeepThink-R1 und o3-mini, lösten das Problem jedoch erfolgreich und zeigten überlegene logische Fähigkeiten. Dies unterstreicht eine Limitation von LLMs bei komplexen logischen Aufgaben, obwohl sie im Natural Language Processing exzellent sind, während spezialisierte Reasoning-Modelle einen klaren Vorteil aufweisen.