Rumo ao Raciocínio do Sistema 2 em LLMs: Aprendendo a Pensar com Meta Chain-of-Thought
2025-01-10

Os pesquisadores propõem uma nova estrutura, Meta Chain-of-Thought (Meta-CoT), que estende o Chain-of-Thought (CoT) tradicional modelando explicitamente o raciocínio subjacente necessário para chegar a um determinado CoT. A Meta-CoT utiliza supervisão de processo, geração de dados sintéticos e algoritmos de busca. O artigo descreve um pipeline de treinamento que incorpora ajuste de instruções com rastros de busca linearizados e aprendizado por reforço. Este trabalho fornece um roteiro para habilitar Meta-CoT em LLMs, prometendo um raciocínio mais poderoso e semelhante ao humano em IA.