次トークン予測の本質：LLMが「理解」に見える振る舞いを獲得する学習目的

目的は一つ：次のトークンを“もっともらしく”予測する

次トークン予測とは、文章を左から右へ読み進めながら、次に来るトークンの候補に確率を割り当てることだ。モデルは、語彙表にある膨大な候補の中から「この文脈ならこれが来そうだ」という分布を出す。学習では、実際にデータに書かれていた正解トークンの確率が高くなるように、モデルの内部パラメータを調整する。

ここで重要なのは、モデルが学んでいるのは「真実」ではなく「データの中で起きやすいこと」だという点である。文脈に対してどの語が続きやすいか、どの文体が自然か、どの説明が一般的かといった統計的規則を身につける。そのため、知識が“覚えたっぽく”見えるのは、データの中で「その話題にはこういう言い回しが続く」パターンを大量に学んでいるからだ。

学習で何が起きるか：正解の確率を上げ、外れの確率を下げる

学習の基本は、「正解を選べた度合い」に応じてペナルティを与えることだ。もしモデルが正解トークンに高い確率を割り当てたならペナルティは小さく、低い確率ならペナルティは大きくなる。これをすべての位置、すべての文章で足し合わせ、平均して最小化する。結果としてモデルは、文脈に合う候補へ確率を寄せ、合わない候補から確率を引いていく。

この学習は、いわば「次に来る単語当てクイズ」を膨大なデータで繰り返すことに相当する。だがクイズの難易度は高い。文章の後半に効く情報が前半に埋まっていることもあるし、常識や世界知識が必要な場合もある。モデルは正解を当てるために、語彙の共起だけでなく、文法、論理のつながり、因果関係、話題の一貫性など、役に立つ手がかりを内部表現として獲得していく。

Teacher forcing：学習時は“正解の過去”を与えて前進する

次トークン予測の学習では、推論時のようにモデルの出力を次の入力として使うのではなく、常にデータの正解列を入力として与える。つまり、各位置の予測は「これまでの正しいトークン列」を条件に行われる。これをteacher forcingと呼ぶ。こうすることで学習が安定し、各位置で確実に「正しい文脈」に対して予測を学べる。

ただしこの方式は、推論時との差を生むことがある。推論ではモデルが一度間違えると、その間違いを含む文脈の上で次を生成し続ける可能性がある。学習では常に正解文脈が与えられるため、この“誤りの連鎖”を直接には学ばない。実運用での生成の癖やエラー伝播は、ここからも生じ得る。

パープレキシティ：モデルが「どれだけ迷わず当てられるか」を測る直観指標

パープレキシティは、次トークン予測モデルの評価に使われる代表的な指標で、「モデルがどれだけ迷ったか」を表すものだと理解するとよい。直観的には、各位置で候補が何択に見えていたか、という“実効的な選択肢の数”に近い。パープレキシティが低いほど、モデルは正解に高い確率を寄せられており、迷いが少ない。

この指標が便利なのは、教師データがあれば自動で計算でき、学習の進み具合を定量的に追える点にある。モデルサイズ、データ量、正規化、最適化手法を変えたときに、改善が起きているかを見やすい。

一方で、パープレキシティは万能ではない。なぜなら、パープレキシティが測っているのは「データ上の次トークンを当てる能力」であって、「人間が望む応答を返す能力」ではないからだ。会話で丁寧に答える、指示に従う、拒否すべきものは拒否する、といった振る舞いは、次トークン予測だけでは保証されない。これが、事前学習モデルと指示追従モデルが分かれる理由の一つでもある。

「良い予測」と「良い回答」は一致しない：目的関数のギャップ

次トークン予測で最適化されるのは、データにおける“もっともらしさ”である。ところがユーザが求めるのは、正確さ、安全性、役立ち度、簡潔さ、根拠提示など、別の軸を含む。たとえば曖昧な質問に対して、データの平均的な続き方は「断定してそれっぽく答える」方向に寄ることがある。これは、会話データや説明文が断定的に書かれていることが多いためで、モデルはそれを模倣する。その結果、根拠がないのに自信ありげに語る“幻覚”が生じる土壌ができる。

また、次トークン予測は、最終的なゴールではなく途中の一手を評価する。長い推論を要する問題で、途中の説明が少し不自然でも最終回答が正しいことはあり得るし、逆に途中の説明が流暢でも結論が間違うこともある。局所的な次トークンの当てやすさと、全体としての問題解決能力は一致しない場合がある。

データ分布がすべてを決める：汎化と分布ずれ

次トークン予測は、学習データの分布を学ぶ。したがって、学習データに多い表現や領域では強くなり、少ない領域では弱くなる。専門分野の厳密な定義や、最新の出来事、社内固有の用語、特定フォーマットのログなどは、データに含まれない限り得意になりにくい。これが「分布ずれ」の問題であり、LLMが突然弱くなる典型的な理由である。

さらに、学習データが混ざり物であるほど、“平均的なもっともらしさ”を選ぶ傾向が出る。専門的に尖った回答より、一般的で無難な回答が確率的に優位になりやすい。モデルが「当たり障りのない」応答に寄る現象は、こうした分布の平均化と目的関数の性質から説明できる。

実装と運用の観点：目的が単純だからこそ管理が重要になる

次トークン予測の学習自体は単純だが、実装では細部が重要になる。入力と正解を一つずらして対応させる必要があり、パディングされた部分は損失計算から除外しなければならない。ここを誤ると、モデルは「空白を当てる」ことばかり学んでしまう。また、長文を扱うときは、どの位置の損失をどれだけ重視するかも設計項目になる。末尾ほど重要なのか、全体を均等に扱うのかで、生成の性格が変わり得る。

運用面では、学習の指標が良くてもプロダクトでの品質が良いとは限らないため、目的に応じた評価軸が必須になる。対話品質、正確性、安全性、指示追従などは、次トークン予測の指標とは別に測る必要がある。このギャップを埋めるためにSFTやPreference学習が導入されるのは、自然な流れである。

まとめ：単純な目的が強力なのは、言語が“予測可能な構造”を持つからである

次トークン予測は、「次を当てる」だけの目的でモデルを鍛える。しかしその過程で、文法、意味、話題の一貫性、常識、説明の型といった、予測に有利な構造が内部表現として獲得される。パープレキシティは迷いの少なさを測る便利な指標だが、良い回答や望ましい振る舞いを保証しない。モデルが“理解”しているように見えるのは、予測に必要な抽象構造を学んでいるからであり、同時にその目的の限界が幻覚や迎合といった副作用も生む。LLMを正しく扱うには、学習目的が何を最適化し、何を最適化しないのかを、最初に言語化しておくことが不可欠だ。

Read More from This Article: 次トークン予測の本質：LLMが「理解」に見える振る舞いを獲得する学習目的
Source: News