Hacia el Razonamiento del Sistema 2 en LLMs: Aprendiendo a Pensar con Meta Chain-of-Thought

2025-01-10
Hacia el Razonamiento del Sistema 2 en LLMs: Aprendiendo a Pensar con Meta Chain-of-Thought

Los investigadores proponen un nuevo marco, Meta Chain-of-Thought (Meta-CoT), que extiende el Chain-of-Thought (CoT) tradicional modelando explícitamente el razonamiento subyacente necesario para llegar a un CoT determinado. Meta-CoT utiliza supervisión de proceso, generación de datos sintéticos y algoritmos de búsqueda. El artículo describe un pipeline de entrenamiento que incorpora el ajuste de instrucciones con rastros de búsqueda linealizados y aprendizaje por refuerzo. Este trabajo proporciona una hoja de ruta para habilitar Meta-CoT en LLMs, prometiendo un razonamiento más poderoso y similar al humano en IA.