LLMはなぜ指示に従えるようになるのか：SFTと好み学習（RLHF／DPO）をやさしく整理する

SFT：まずは「良いお手本」を真似る

SFTは、指示と回答のペアを大量に用意し、「この指示にはこの回答が望ましい」という例を学ばせる。学習目的自体は事前学習と似ていて、次トークンを当てるだけだが、データの形式が違う。会話形式で、役割（system、user、assistant）を明示し、望ましい口調や構成を含む回答を与える。これによりモデルは、指示を読んだときにどう返すのが“それっぽいか”を身につける。

ただしSFTだけでは限界がある。お手本がカバーしていない状況では崩れやすく、微妙な品質差や安全性の優先順位をうまく表現しきれない。ここで「好み」を学ぶ段階が効いてくる。

好み学習：正解が一つではない世界で“より良い”を学ぶ

会話の品質には正解が一つではない。丁寧さ、簡潔さ、根拠提示、慎重さなど、複数の基準が絡む。そこで「同じ質問に対する二つの回答を比べて、どちらが良いか」をデータとして集める。この比較データから、良い回答に点数を付ける役割を持つモデルを作り、その点数が高くなるように元のモデルを調整するのがRLHFの代表的な考え方である。

ここで理解しておきたいのは、モデルが直接「正解」を学んでいるのではなく、「評価者が好む方向」へ寄せられている点だ。だからデータ収集や評価基準の設計がそのままモデルの性格になる。迎合しやすくなる、無難になりやすい、といった副作用が出るのもこの構造から説明できる。

RLHF：ご褒美を最大化するように学ぶが、運用は難しい

RLHFの流れは、概念としては「人間が良いと感じる回答に高い報酬を与え、その報酬が増えるようにモデルを更新する」である。これにより、事前学習で得た知識や文法能力を保ちつつ、応答の方針だけを人間の期待に合わせられる。

一方で、学習が不安定になりやすい、調整が難しい、報酬モデルの癖に引っ張られる、といった実務上の課題もある。報酬を最大化しようとして、評価者が喜びそうな言い回しだけが上手くなり、中身の正確さが伴わないこともある。これが迎合やそれっぽい断定の増加につながる場合がある。

DPO：強化学習を使わず「選好」を直接反映する

DPOは、好みデータを使う点では同じだが、強化学習のループを回さずに、より直接的に「好まれる回答を出しやすくする」方向へ学習する発想である。比較データを見て、好まれた回答の確率を上げ、好まれなかった回答の確率を下げる。これにより、実装が単純になり、学習の安定性が上がりやすい。

DPOの良さは、運用上の扱いやすさにある。学習が回しやすく、破綻しにくい。一方で、どの程度ベースモデルから離れるか、好みの押し付けが強すぎないか、といった設計課題は残る。結局は、好みデータの質と、どんな方針を学ばせるかが決定的である。

まとめ：指示追従は「目的関数の再設計」であり、人格はデータで決まる

SFTは良いお手本を真似る段階で、RLHFやDPOは「どちらがより良いか」を学ぶ段階である。次トークン予測だけでは保証されない丁寧さや安全性、役立ち度は、こうした追加学習で目的が作り替えられることで実現される。ただし、何を良いとするかはデータと評価基準に依存し、そこがそのままモデルの性格になる。指示に従えるモデルを作るとは、モデルを賢くするだけでなく、「どんな助手であってほしいか」を明文化し、それを学習として落とし込む作業である。