Les LLM échouent à Set, les modèles de raisonnement triomphent

2025-02-19
Les LLM échouent à Set, les modèles de raisonnement triomphent

Une expérience a testé les capacités de raisonnement des grands modèles de langage (LLM) dans le jeu de cartes Set. Set exige d'identifier des ensembles de trois cartes parmi une disposition de douze, en fonction de règles spécifiques concernant la forme, la couleur, le nombre et le ombrage. Les LLM tels que GPT-4o, Sonnet-3.5 et Mistral ont échoué à identifier systématiquement des ensembles corrects, suggérant souvent des combinações invalides ou affirmant qu'il n'existait aucun ensemble. Cependant, les modèles de raisonnement plus récents, DeepThink-R1 et o3-mini, ont résolu avec succès le problème, démontrant des capacités de raisonnement logique supérieures. Cela met en évidence une limitation des LLM dans les tâches logiques complexes, même s'ils excellent dans le traitement du langage naturel, tandis que les modèles de raisonnement spécialisés présentent un avantage clair.