LLMトレーニングの三つの神殿：事前学習、ファインチューニング、RLHF

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

2025-06-10

レキシコニアの隠された山岳聖域で、古代の書記官たちは三部構成の神殿で訓練を受けています。起源の殿、命令の部屋、強化の闘技場です。起源の殿では、書記官たちは膨大な量のテキストを読み、言語パターンを学習する事前学習が行われます。命令の部屋では、厳選されたテキストを使用して、書記官たちをより良い出力に導くファインチューニングが行われます。強化の闘技場では、人間のフィードバックによる強化学習（RLHF）が用いられ、人間の審査員が書記官たちの回答をランク付けし、良い回答を褒め、悪い回答を罰します。また、一部のエリート書記官は、LoRAスクロールとアダプターを使用して、モデル全体を再トレーニングすることなく、回答を微調整することができます。この三翼の神殿は、大規模言語モデルのトレーニングの完全なプロセスを表しています。