LLMの学習データはどう作られるか：収集からフィルタリング、重複除去、データ配合まで

データは「仕様書」そのもの：同じモデルでも中身が別物になる

LLMは次トークン予測を通じて、データの中で起きやすい続き方を学ぶ。だからデータが変われば、モデルが得意とする語彙も、説明の癖も、推論のスタイルも変わる。たとえばコードが多ければコードが得意になり、学術文献が多ければ定義や引用の文体に寄る。会話が多ければ相槌や丁寧さが増えやすい。逆に、ノイズが多いと誤字脱字や断片的な文章を模倣しやすくなる。ここで重要なのは、データを集めた段階ではまだ「モデルに教えたいこと」が明示されていないことだ。後から損失関数で縛るより先に、データが暗黙のルールを決めてしまう。

収集の現実：Webは巨大だが、均質ではない

データ収集は多くの場合、Web由来の大規模コーパスを中心に始まる。だがWebは、百科事典のような整った文章だけで構成されていない。広告、テンプレ、スパム、機械生成文、コピー記事、コメント欄の断片、重複したミラーサイト、改行だらけのログなどが大量に混じる。さらに言語混在も頻繁に起きる。日本語記事に英語の引用が入り、コード片が混ざり、絵文字や装飾記号が散らばる。収集しただけの生データを学習に流すと、モデルはその混沌も学ぶ。したがって、収集の次に来る整形と選別が、実質的に「学習データの設計」になる。

品質フィルタリング：良い文章を残し、悪い文章を落とすという難題

品質フィルタは一見単純に見えるが、実務では難しい。短すぎる断片、意味のない繰り返し、文字化け、リンク集、広告文を落とすのは比較的分かりやすい。しかし「良い文章」の定義は用途依存である。専門性を重視するなら堅い文章が必要だが、対話能力を育てるなら口語的な会話も価値がある。コード生成を重視するなら、コメントやエラー出力も重要な学習材料になる。つまり、フィルタリングは単なる掃除ではなく、モデルをどんな方向に育てるかの意思決定である。

実際のフィルタは複数の要素の組み合わせになる。言語判定で対象言語を選び、長さや語彙の多様性、文字種の比率、句読点の密度、繰り返しパターンなどから品質スコアを作る。さらに、既知のスパム特徴やテンプレ文の検知を加える。近年では小型モデルを使って「自然さ」や「情報密度」を推定し、スコアで足切りすることもある。ここで大事なのは、誤って価値あるデータを落とさないことだ。特に日本語は表記揺れが多く、短文が意味を持つ場面も多い。単純なルールで切り過ぎると、言語の多様性を損なう。

個人情報や機密の扱い：学習データは「忘れない」前提で考える

LLMは学習したパターンを内部に保持するため、データに個人情報や機密が混入するとリスクが生じる。メールアドレス、電話番号、住所、IDのような明確な個人情報だけでなく、固有の注文番号やログのトークンなども再現される可能性がある。したがって実務では、正規表現や辞書ベースの検出、あるいは専用の検出器を使ってPIIらしき文字列を削除・マスクする工程を入れることが多い。ただしマスクは文章の自然さを壊すため、マスク方針自体が学習分布を変える副作用もある。どこまで落とし、どこまで残すかは、法的・倫理的要請とモデル性能のトレードオフになりやすい。

重複除去が効きすぎるほど効く：同じ文章を何度も読むとモデルが歪む

Webには重複が非常に多い。同じ記事の転載、引用、ミラー、テンプレ、あるいは一部だけ変えたコピーが大量に存在する。もし重複をそのまま学習すると、モデルは「頻度の高いもの」を過大に重要だと学ぶ。これは単純に無駄な計算を増やすだけでなく、特定の文体やフレーズが過剰に強化され、生成がテンプレ化する原因になる。

重複除去には段階がある。まず完全一致の除去があり、その後に「ほぼ同じ」を見つける近似重複がある。近似重複は、文章をいくつかの断片に分けて特徴を作り、似た特徴を持つ文書を同一グループとして扱うような方法で行われる。ここでも難しいのは、重複と引用の線引きだ。引用は学習に価値がある場合も多いが、引用ばかり残して本文を落とすと情報が欠ける。重複除去は単なる最適化ではなく、「どれを正典として残すか」という編集作業に近い。

データの配合（ミックス）設計：何をどれだけ混ぜるかが人格を決める

大規模モデルは一種類のデータでは育ちにくい。一般文章、百科事典的知識、ニュース、学術、Q&A、会話、コードなどを適切に混ぜることで、幅広い能力が立ち上がりやすい。だが混ぜ方を誤ると、特定の能力が伸びないか、別の能力が犠牲になる。会話を増やしすぎると説明が冗長になることがあるし、コードを増やしすぎると通常文でもコードっぽい言い回しが増えることがある。専門文書を増やすと精密さは上がるが、一般ユーザへの説明が硬くなることがある。

配合設計の本質は、学習でモデルが見る「世界の比率」を決めることだ。モデルは頻度の高いスタイルを“普通”として学び、そこから外れるものを例外として扱う。したがって、プロダクトの用途に合わせて、どの話し方を標準にするかをデータ比率で設計する必要がある。

評価汚染を避ける：ベンチマークを暗記すると“良いモデル”に見えてしまう

データパイプラインで特に重要なのが評価汚染の回避だ。評価用のベンチマーク問題が学習データに混ざると、モデルは解法を学ぶのではなく「問題と答えのセット」を暗記してしまう。すると評価スコアは上がるが、未知問題への一般化能力は上がっていない。これは研究でも実務でも致命的で、モデル改善の判断を誤らせる。

回避策としては、評価セットに含まれる文章やその近似表現を学習データから除去する、あるいは評価セットを徹底的に秘匿し、学習データと照合できる形で管理するなどの方法がある。重複除去の技術はここでも使えるが、完全に防ぐのは難しいため、評価自体を複数用意し、汚染の影響を相対化する運用が重要になる。

まとめ：データパイプラインは「モデル設計の半分」であり、手戻りしにくい

学習データの構築は、収集して終わりではない。品質を定義し、ノイズを落とし、重複を削り、個人情報や機密のリスクを下げ、用途に合わせて配合比率を調整し、評価汚染を避ける。これらはすべて、モデルの能力と性格を決める不可逆に近い意思決定である。モデルのアーキテクチャが同じでも、データパイプラインが違えば別モデルになる。LLMを専門的に扱うなら、データを「原料」ではなく「仕様」として扱うことが出発点になる。