Los Tres Templos del Entrenamiento de LLM: Pretrenimiento, Afinamiento y RLHF

2025-06-10
Los Tres Templos del Entrenamiento de LLM: Pretrenimiento, Afinamiento y RLHF

En el santuario de montaña escondido de Lexiconia, los escribas antiguos se someten a un entrenamiento en un templo de tres partes: El Salón de los Orígenes, La Cámara de las Instrucciones y La Arena de Refuerzo. El Salón de los Orígenes implica el pretrenimiento, donde los escribas leen grandes cantidades de texto para aprender patrones de lenguaje. La Cámara de las Instrucciones es donde ocurre el afinamiento, utilizando textos seleccionados para guiar a los escribas hacia mejores resultados. La Arena de Refuerzo utiliza el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF), con jueces humanos clasificando las respuestas de los escribas, recompensando las buenas y castigando las malas. Los escribas de élite también pueden ser modificados sutilmente mediante pergaminos LoRA y adaptadores, ajustando las respuestas sin volver a entrenar todo el modelo. Este templo de tres alas representa el proceso completo de entrenamiento de modelos de lenguaje grandes.