Auf dem Weg zum System-2-Schlussfolgern in LLMs: Lernen, mit Meta Chain-of-Thought zu denken
Forscher schlagen ein neues Framework namens Meta Chain-of-Thought (Meta-CoT) vor, das das traditionelle Chain-of-Thought (CoT) erweitert, indem es das zugrunde liegende Denken, das zu einem bestimmten CoT führt, explizit modelliert. Meta-CoT nutzt Prozessüberwachung, die Generierung synthetischer Daten und Suchalgorithmen. Der Artikel beschreibt eine konkrete Pipeline zum Training eines Modells zur Erzeugung von Meta-CoTs, die Instruction Tuning mit linearisierten Suchspuren und Reinforcement Learning nach dem Training umfasst. Diese Arbeit liefert eine theoretische und praktische Roadmap zur Ermöglichung von Meta-CoT in LLMs und ebnet den Weg für leistungsfähigeres und menschenähnlicheres Schließen in der künstlichen Intelligenz.