Os Três Templos do Treinamento de LLMs: Pré-treinamento, Fine-tuning e RLHF

2025-06-10
Os Três Templos do Treinamento de LLMs: Pré-treinamento, Fine-tuning e RLHF

No santuário de montanha escondido de Lexiconia, escribas antigos passam por treinamento em um templo de três partes: O Salão das Origens, A Câmara das Instruções e A Arena de Reforço. O Salão das Origens envolve pré-treinamento, onde os escribas lêem grandes quantidades de texto para aprender padrões de linguagem. A Câmara das Instruções é onde ocorre o fine-tuning, usando textos selecionados para guiar os escribas para melhores resultados. A Arena de Reforço utiliza Aprendizado por Reforço com Feedback Humano (RLHF), com juízes humanos classificando as respostas dos escribas, recompensando as boas e punindo as ruins. Escribas de elite também podem ser sutilmente modificados por meio de pergaminhos LoRA e adaptadores, ajustando as respostas sem treinar novamente todo o modelo. Este templo de três asas representa o processo completo de treinamento de modelos de linguagem grandes.