LLMトレーニングの三つの神殿:事前学習、ファインチューニング、RLHF

2025-06-10
LLMトレーニングの三つの神殿:事前学習、ファインチューニング、RLHF

レキシコニアの隠された山岳聖域で、古代の書記官たちは三部構成の神殿で訓練を受けています。起源の殿、命令の部屋、強化の闘技場です。起源の殿では、書記官たちは膨大な量のテキストを読み、言語パターンを学習する事前学習が行われます。命令の部屋では、厳選されたテキストを使用して、書記官たちをより良い出力に導くファインチューニングが行われます。強化の闘技場では、人間のフィードバックによる強化学習(RLHF)が用いられ、人間の審査員が書記官たちの回答をランク付けし、良い回答を褒め、悪い回答を罰します。また、一部のエリート書記官は、LoRAスクロールとアダプターを使用して、モデル全体を再トレーニングすることなく、回答を微調整することができます。この三翼の神殿は、大規模言語モデルのトレーニングの完全なプロセスを表しています。