ポストトレーニング
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2026/03/27 16:26 UTC 版)
ポストトレーニング(英: post-training、事後学習)とは、大規模言語モデル(LLM)の事前学習(プレトレーニング)が完了した後に施される一連の追加的な学習手法の総称である。事前学習によって言語の統計的パターンや幅広い知識を獲得したモデルを、特定のタスクへの適応・AIアライメント(人間の意図や価値観への整合)・推論能力の向上に向けて洗練させることを目的とする[1]。
ポストトレーニングはファインチューニング、強化学習、テスト時スケーリングの三つの柱に大別され[2]、ChatGPTの公開(2022年)以降、大規模言語モデル(LLM)開発において最も活発な研究領域の一つとなっている[3]。
概要
大規模言語モデルの開発は、大規模なテキストコーパスを用いた事前学習によって始まる。事前学習では、次トークン予測という自己教師あり目標のもと、モデルは言語の統計的関係・意味的な繋がり・構文規則を獲得する。しかし事前学習のみでは、モデルは必ずしもユーザーの指示に従ったり、有害な出力を避けたり、複雑な推論課題を解いたりする能力を持たない。ポストトレーニングはこの「汎用的な基盤能力」を「有用で安全なモデル」へと変換するプロセスである[4]。
事前学習が膨大な計算資源とデータを要するのに対し、ポストトレーニングは相対的に少ないリソースで実施できる。InstructGPTの研究では、事前学習が全体の計算資源の98%を占める一方、ポストトレーニング段階(SFTおよびRLHF)はわずか2%に過ぎないことが示されている[5]。
歴史的背景
ポストトレーニングの概念は、自然言語処理モデルの特定タスクへのファインチューニングの伝統に遡る。大規模言語モデルの登場以降、その重要性は急速に高まった。
2021年には人間フィードバックによる強化学習(RLHF)が注目を集め、同年にはMicrosoft ResearchによるLoRA(Low-Rank Adaptation)が提案され、パラメータ効率的なファインチューニングの基盤が整えられた[6]。
2022年、OpenAIはRLHFを用いてGPT-3をファインチューニングしたInstructGPTを発表した。この研究では、13億パラメータのInstructGPTが1750億パラメータのGPT-3よりも人間の評価者に好まれることが示され、モデルサイズよりもAIアライメントが有用性に与える影響の大きさが実証された[7]。同年末のChatGPT公開はRLHFの普及を決定的なものとした。
2022年12月、AnthropicはRLHFを拡張したConstitutional AI (CAI)を発表し、AIフィードバックによるアライメント(RLAIF)という新たな方向性を示した[8]。
2023年には、Rafailovらが直接選好最適化(DPO)を提案し、明示的な報酬モデルや強化学習を必要とせずに人間の選好に整合するシンプルな手法として注目された[9]。
2022年から2024年にかけては、検索拡張生成(RAG)によるドメイン適応、マルチモーダル統合、倫理的整合性強化など、ポストトレーニングの多様化が急速に進んだ[10]。
主要手法
ファインチューニング
ファインチューニングとは、事前学習済みモデルのパラメータを特定タスクや特定ドメインのデータを用いてさらに学習させる手法の総称である[4]。
- 教師ありファインチューニング(Supervised Fine-Tuning, SFT)
- 入力と期待出力のペア(デモンストレーションデータ)を用いて、クロスエントロピー損失により教師あり学習を行う。モデルが指示に従う能力の基礎となる。InstructGPTにおいては、人間のアノテーターが高品質な応答を作成したプロンプト・応答ペアを用いてGPT-3をSFTした[7]。
- インストラクションチューニング(Instruction Tuning)
- 多様な形式の指示・応答ペアを用いたSFTの特殊形態であり、ゼロショット汎化能力を高めることを目的とする[4]。
- フルファインチューニング
- モデルの全パラメータを更新する手法。高い性能を発揮する一方、過学習(オーバーフィッティング)や破滅的忘却(Catastrophic Forgetting)のリスク、および膨大な計算コストを伴う[2]。
パラメータ効率的ファインチューニング(PEFT)
パラメータ効率的ファインチューニング(Parameter-Efficient Fine-Tuning, PEFT)は、モデルの全パラメータではなく一部の小さなパラメータのみを更新することで、フルファインチューニングに匹敵する性能を大幅に低いコストで達成しようとする手法群である[4]。
- LoRA(Low-Rank Adaptation)
- 事前学習済みモデルの重みを固定したうえで、各Transformerレイヤーに低ランク分解行列を注入する手法。Huら(2021)が提案した。GPT-3 175BをAdamオプティマイザでフルファインチューニングするのと比較して、学習可能パラメータ数を1万分の1、GPUメモリ使用量を3分の1に削減しつつ、同等以上の性能を示す[11]。
- QLoRA
- LoRAに4ビット量子化を組み合わせ、さらにメモリ使用量を削減した拡張手法[4]。
- アダプター(Adapter)
- モデルの既存レイヤーの間に小規模な学習可能モジュールを挿入する手法。元のモデル重みは変更しない[4]。
強化学習に基づく手法
強化学習(RL)に基づくポストトレーニングでは、モデルの出力が人間の選好や特定の基準にどれだけ合致するかを示す報酬信号を用いてモデルを最適化する[2]。
- 人間フィードバックによる強化学習(RLHF)
- (1)SFTによるモデルの初期化、(2)人間のアノテーターが複数の出力をランク付けしたデータを用いた報酬モデルの学習、(3)近接方策最適化(PPO)アルゴリズムを用いた方策最適化、という三段階からなる手法。Ouyang ら(2022)のInstructGPTで大規模に実証された[7]。
- AIフィードバックによる強化学習(RLAIF)
- 人間のアノテーターではなくAIが評価・フィードバックを与える手法。AnthropicのConstitutional AI(CAI)では、AIが原則リスト(コンスティテューション)に基づいて自己批判・改訂を行うことで、人間ラベルなしにアライメントを実現する[12]。
- 直接選好最適化(DPO)
- RLHFの手順を単純化し、明示的な報酬モデルや強化学習を使わずに、人間の選好データから直接方策を最適化するアルゴリズム。Rafailovら(2023)が提案した。安定性・計算効率の高さから広く採用されている[13]。
- グループ相対方策最適化(GRPO)
- PPOにおける価値関数推定を廃し、グループ内の出力の相対的な報酬から優位関数を計算する手法。DeepSeek-R1などで採用されている[2]。
テスト時スケーリング(Test-Time Scaling, TTS)
テスト時スケーリングとは、モデルの重みを変更せず、推論時の計算量や戦略を増やすことで、複雑なクエリに対する応答品質を向上させる手法群である[14]。
- 思考の連鎖(Chain-of-Thought, CoT)プロンプティング
- 最終回答の前に段階的な推論ステップを生成させる手法。Weiら(2022)が提案し、算術・常識・記号推論などの課題で顕著な性能向上をもたらすことが示された[15]。
- 反復的推論(Iterative Reasoning)
- モデルが自己批判・再思考を繰り返すことで推論精度を高める戦略[14]。
課題と限界
- 破滅的忘却(Catastrophic Forgetting)
- ポストトレーニングで新しいタスクを学習すると、事前学習で獲得した知識やその他のタスクの性能が著しく低下する現象。連続学習の文脈でMcCloskey and Cohen(1989)以来認識されてきた問題であり、大規模言語モデルのファインチューニングでも深刻な課題となっている[16]。
- 報酬ハッキング(Reward Hacking)
- 強化学習において、モデルが真の高品質回答ではなく報酬モデルの盲点を利用することで高い報酬を得ようとする現象。報酬モデル自体の偏りや限界が根本原因となる[2]。
- 過学習とアライメント税(Alignment Tax)
- アライメント手法の適用によって、学術ベンチマークなど特定のタスク性能が低下する現象をアライメント税と呼ぶ。Ouyang ら(2022)はPPO-ptxを導入することでこの回帰を軽減できることを示した[7]。
- 推論時コスト(Inference-Time Trade-offs)
- テスト時スケーリング手法は推論コストを高める可能性があり、高品質な応答と計算効率のバランスが課題となる[2]。
- 報酬モデルの汎化
- 報酬モデルが多様なユーザー集団の選好を正確に代表するか、また分布外の入力に対して適切に一般化するかという問題は未解決の研究課題である[17]。
主な応用事例
- InstructGPT / ChatGPT
- OpenAIがGPT-3にRLHF(SFT + 報酬モデル + PPO)を適用して構築したモデル。ChatGPTはInstructGPTをベースに拡張した会話型AIである[7]。
- DeepSeek-R1
- 中国のAI企業DeepSeekが開発。GRPOを用いた強化学習で推論能力を大幅に向上させたモデルとして注目された[2]。
関連項目
- 大規模言語モデル
- 事前学習
- ファインチューニング (機械学習)
- 人間フィードバックによる強化学習(RLHF)
- Constitutional AI
- 近接方策最適化(PPO)
- 思考の連鎖(Chain-of-Thought)
- AIアライメント
脚注
- ^ Gupta, Komal Kumar; Ashraf, Tajamul; et al. (2025). “LLM Post-Training: A Deep Dive into Reasoning Large Language Models”. arXiv preprint. arXiv:2502.21321 2026年3月23日閲覧。.
- ^ a b c d e f g Gupta, Komal Kumar; Ashraf, Tajamul; et al. (2025). “LLM Post-Training: A Deep Dive into Reasoning Large Language Models”. arXiv preprint. arXiv:2502.21321 2026年3月23日閲覧。.
- ^ Raschka, Sebastian (2024年8月17日). “New LLM Pre-training and Post-training Paradigms”. 2026年3月23日閲覧。
- ^ a b c d e f Red Hat Developer (2025年11月4日). “Post-training methods for language models”. 2026年3月23日閲覧。
- ^ Huyen, Chip (2023年5月2日). “RLHF: Reinforcement Learning from Human Feedback”. 2026年3月23日閲覧。
- ^ Hu, Edward J.; Shen, Yelong; et al. (2021). “LoRA: Low-Rank Adaptation of Large Language Models”. arXiv preprint. arXiv:2106.09685 2026年3月23日閲覧。.
- ^ a b c d e Ouyang, Long; Wu, Jeff; et al. (2022). “Training language models to follow instructions with human feedback”. Advances in Neural Information Processing Systems 35: 27730–27744 2026年3月23日閲覧。.
- ^ Bai, Yuntao; Kadavath, Saurav; et al. (2022). “Constitutional AI: Harmlessness from AI Feedback”. arXiv preprint. arXiv:2212.08073 2026年3月23日閲覧。.
- ^ Rafailov, Rafael; Sharma, Archit; et al. (2023). “Direct Preference Optimization: Your Language Model is Secretly a Reward Model”. Advances in Neural Information Processing Systems 36 2026年3月23日閲覧。.
- ^ Shi, Shuaichen; et al. (2025). “Large Language Models Post-training: Surveying Techniques from Alignment to Reasoning”. arXiv preprint. arXiv:2503.06072 2026年3月23日閲覧。.
- ^ Hu, Edward J.; Shen, Yelong; et al. (2022). “LoRA: Low-Rank Adaptation of Large Language Models”. International Conference on Learning Representations (ICLR 2022) 2026年3月23日閲覧。.
- ^ Bai, Yuntao; Kadavath, Saurav; et al. (2022). “Constitutional AI: Harmlessness from AI Feedback”. arXiv preprint. arXiv:2212.08073 2026年3月23日閲覧。.
- ^ Rafailov, Rafael; Sharma, Archit; et al. (2023). “Direct Preference Optimization: Your Language Model is Secretly a Reward Model”. Advances in Neural Information Processing Systems 36 2026年3月23日閲覧。.
- ^ a b c Sanderink, Ursina (2025年3月4日). “LLM Post-Training: A Deep Dive into Reasoning Large Language Models”. 2026年3月23日閲覧。
- ^ Wei, Jason; Wang, Xuezhi; et al. (2022). “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models”. Advances in Neural Information Processing Systems 35 2026年3月23日閲覧。.
- ^ Luo, Yun; Yang, Zhen; et al. (2023). “An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning”. arXiv preprint. arXiv:2308.08747 2026年3月23日閲覧。.
- ^ IntuitionLabs (2025年7月30日). “Reinforcement Learning from Human Feedback (RLHF) Explained”. 2026年3月23日閲覧。
- ^ Bai, Yuntao; Kadavath, Saurav; et al. (2022). “Constitutional AI: Harmlessness from AI Feedback”. arXiv preprint. arXiv:2212.08073 2026年3月23日閲覧。.
- ^ Raschka, Sebastian (2024年8月17日). “New LLM Pre-training and Post-training Paradigms”. 2026年3月23日閲覧。
参考文献
- Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex (2022). “Training language models to follow instructions with human feedback”. Advances in Neural Information Processing Systems 35: 27730–27744 2026年3月23日閲覧。.
- Rafailov, Rafael; Sharma, Archit; Mitchell, Eric; Ermon, Stefano; Manning, Christopher D.; Finn, Chelsea (2023). “Direct Preference Optimization: Your Language Model is Secretly a Reward Model”. Advances in Neural Information Processing Systems 36 2026年3月23日閲覧。.
- Hu, Edward J.; Shen, Yelong; Wallis, Phillip; Allen-Zhu, Zeyuan; Li, Yuanzhi; Wang, Shean; Wang, Lu; Chen, Weizhu (2022). “LoRA: Low-Rank Adaptation of Large Language Models”. International Conference on Learning Representations (ICLR 2022) 2026年3月23日閲覧。.
- Bai, Yuntao; Kadavath, Saurav; Kundu, Sandipan; Askell, Amanda; Kernion, Jackson; et al. (2022). “Constitutional AI: Harmlessness from AI Feedback”. arXiv preprint. arXiv:2212.08073 2026年3月23日閲覧。.
- Wei, Jason; Wang, Xuezhi; Schuurmans, Dale; Bosma, Maarten; Ichter, Brian; Xia, Fei; Chi, Ed; Le, Quoc; Zhou, Denny (2022). “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models”. Advances in Neural Information Processing Systems 35 2026年3月23日閲覧。.
- Gupta, Komal Kumar; Ashraf, Tajamul; et al. (2025). “LLM Post-Training: A Deep Dive into Reasoning Large Language Models”. arXiv preprint. arXiv:2502.21321 2026年3月23日閲覧。.
- Luo, Yun; Yang, Zhen; Meng, Fandong; Li, Yafu; Zhou, Jie; Zhang, Yue (2023). “An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning”. arXiv preprint. arXiv:2308.08747 2026年3月23日閲覧。.
- Shi, Shuaichen; et al. (2025). “A Survey on Post-training of Large Language Models”. arXiv preprint. arXiv:2503.06072 2026年3月23日閲覧。.
外部リンク
- LLM Post-Training: A Deep Dive into Reasoning Large Language Models - arXiv(英語)
- A Survey on Post-training of Large Language Models - arXiv(英語)
- Post-training methods for language models - Red Hat Developer(英語)
- ポストトレーニングのページへのリンク