LLMs scheitern bei Set, Reasoning-Modelle siegen

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

LLMs scheitern bei Set, Reasoning-Modelle siegen

2025-02-19

Ein Experiment testete die Fähigkeiten großer Sprachmodelle (LLMs) im Kartenspiel Set. Set erfordert das Identifizieren von Dreiergruppen aus zwölf Karten, basierend auf spezifischen Regeln zu Form, Farbe, Anzahl und Schattierung. LLMs wie GPT-4o, Sonnet-3.5 und Mistral scheiterten daran, konsistent korrekte Gruppen zu identifizieren und schlugen oft ungültige Kombinationen vor oder behaupteten, es gäbe keine Gruppen. Neuere Reasoning-Modelle, DeepThink-R1 und o3-mini, lösten das Problem jedoch erfolgreich und zeigten überlegene logische Fähigkeiten. Dies unterstreicht eine Limitation von LLMs bei komplexen logischen Aufgaben, obwohl sie im Natural Language Processing exzellent sind, während spezialisierte Reasoning-Modelle einen klaren Vorteil aufweisen.

(github.com)

KI Reasoning-Modelle Set-Spiel

NASA stoppt Entlassungen: Neuer Administrator-Kandidat im Hintergrund?

Google Play Books umgeht Apples App Store-Provision auf iOS