Die drei Tempel des LLM-Trainings: Pretraining, Feintuning und RLHF
In dem verborgenen Bergheiligtum von Lexiconia durchlaufen alte Schreiber ein Training in einem dreiteiligen Tempel: Die Halle der Ursprünge, Die Kammer der Anweisungen und Die Arena der Verstärkung. Die Halle der Ursprünge beinhaltet das Pretraining, wo die Schreiber große Mengen Text lesen, um Sprachmuster zu erlernen. Die Kammer der Anweisungen ist der Ort, an dem das Feintuning stattfindet, wobei ausgewählte Texte verwendet werden, um die Schreiber zu besseren Ergebnissen zu führen. Die Arena der Verstärkung nutzt Reinforcement Learning with Human Feedback (RLHF), wobei menschliche Richter die Antworten der Schreiber bewerten, gute belohnen und schlechte bestrafen. Elite-Schreiber können auch subtil durch LoRA-Rollen und Adapter modifiziert werden, wodurch die Antworten angepasst werden, ohne das gesamte Modell neu zu trainieren. Dieser dreiflügelige Tempel repräsentiert den vollständigen Prozess des Trainings großer Sprachmodelle.