“IT의 존재감을 키워라” 2026년 CIO들이 꼽은 9가지 실천 목표

많은 CIO가 새해를 맞아 과감한 결심을 세우고 있으며, 이런 포부와 의지는 조직을 변화시키고 기업에서 IT가 제공하는 가치를 보여주는 것을 목표로 한다. CIO가 제시한 목표 상당수가 AI와 관련된 것은 놀랄 일이 아니다. 다만 CIO가 2026년 목표를 세우며 염두에 둔 주제는 AI만이 아니다. IT 리더가 달성하려는 과제를 파악하기 위해 여러 CIO에게 포부를 공유해달라고 요청했다. 1. AI 결과물의…

Le sfide del CIO nel 2026: la knowledge-based company e il change management

La trasformazione delle imprese in ottica digitale proseguirà nel 2026 sicuramente all’insegna dell’intelligenza artificiale, ma è chiaro che non c’è AI senza valorizzazione e governo dei dati e, quindi, la vera sfida per il CIO sarà accelerare l’approccio data-driven nella propria azienda. Anzi, l’approccio knowledge-driven, come sottolinea Alessandro Franchi, CIO di Maddalena, una delle più importanti realtà…

LLMの学習データはどう作られるか:収集からフィルタリング、重複除去、データ配合まで

データは「仕様書」そのもの:同じモデルでも中身が別物になる

LLMは次トークン予測を通じて、データの中で起きやすい続き方を学ぶ。だからデータが変われば、モデルが得意とする語彙も、説明の癖も、推論のスタイルも変わる。たとえばコードが多ければコードが得意になり、学術文献が多ければ定義や引用の文体に寄る。会話が多ければ相槌や丁寧さが増えやすい。逆に、ノイズが多いと誤字脱字や断片的な文章を模倣しやすくなる。ここで重要なのは、データを集めた段階ではまだ「モデルに教えたいこと」が明示されていないことだ。後から損失関数で縛るより先に、データが暗黙のルールを決めてしまう。

収集の現実:Webは巨大だが、均質ではない

データ収集は多くの場合、Web由来の大規模コーパスを中心に始まる。だがWebは、百科事典のような整った文章だけで構成されていない。広告、テンプレ、スパム、機械生成文、コピー記事、コメント欄の断片、重複したミラーサイト、改行だらけのログなどが大量に混じる。さらに言語混在も頻繁に起きる。日本語記事に英語の引用が入り、コード片が混ざり、絵文字や装飾記号が散らばる。収集しただけの生データを学習に流すと、モデルはその混沌も学ぶ。したがって、収集の次に来る整形と選別が、実質的に「学習データの設計」になる。

品質フィルタリング:良い文章を残し、悪い文章を落とすという難題

品質フィルタは一見単純に見えるが、実務では難しい。短すぎる断片、意味のない繰り返し、文字化け、リンク集、広告文を落とすのは比較的分かりやすい。しかし「良い文章」の定義は用途依存である。専門性を重視するなら堅い文章が必要だが、対話能力を育てるなら口語的な会話も価値がある。コード生成を重視するなら、コメントやエラー出力も重要な学習材料になる。つまり、フィルタリングは単なる掃除ではなく、モデルをどんな方向に育てるかの意思決定である。

実際のフィルタは複数の要素の組み合わせになる。言語判定で対象言語を選び、長さや語彙の多様性、文字種の比率、句読点の密度、繰り返しパターンなどから品質スコアを作る。さらに、既知のスパム特徴やテンプレ文の検知を加える。近年では小型モデルを使って「自然さ」や「情報密度」を推定し、スコアで足切りすることもある。ここで大事なのは、誤って価値あるデータを落とさないことだ。特に日本語は表記揺れが多く、短文が意味を持つ場面も多い。単純なルールで切り過ぎると、言語の多様性を損なう。

個人情報や機密の扱い:学習データは「忘れない」前提で考える

LLMは学習したパターンを内部に保持するため、データに個人情報や機密が混入するとリスクが生じる。メールアドレス、電話番号、住所、IDのような明確な個人情報だけでなく、固有の注文番号やログのトークンなども再現される可能性がある。したがって実務では、正規表現や辞書ベースの検出、あるいは専用の検出器を使ってPIIらしき文字列を削除・マスクする工程を入れることが多い。ただしマスクは文章の自然さを壊すため、マスク方針自体が学習分布を変える副作用もある。どこまで落とし、どこまで残すかは、法的・倫理的要請とモデル性能のトレードオフになりやすい。

重複除去が効きすぎるほど効く:同じ文章を何度も読むとモデルが歪む

Webには重複が非常に多い。同じ記事の転載、引用、ミラー、テンプレ、あるいは一部だけ変えたコピーが大量に存在する。もし重複をそのまま学習すると、モデルは「頻度の高いもの」を過大に重要だと学ぶ。これは単純に無駄な計算を増やすだけでなく、特定の文体やフレーズが過剰に強化され、生成がテンプレ化する原因になる。

重複除去には段階がある。まず完全一致の除去があり、その後に「ほぼ同じ」を見つける近似重複がある。近似重複は、文章をいくつかの断片に分けて特徴を作り、似た特徴を持つ文書を同一グループとして扱うような方法で行われる。ここでも難しいのは、重複と引用の線引きだ。引用は学習に価値がある場合も多いが、引用ばかり残して本文を落とすと情報が欠ける。重複除去は単なる最適化ではなく、「どれを正典として残すか」という編集作業に近い。

データの配合(ミックス)設計:何をどれだけ混ぜるかが人格を決める

大規模モデルは一種類のデータでは育ちにくい。一般文章、百科事典的知識、ニュース、学術、Q&A、会話、コードなどを適切に混ぜることで、幅広い能力が立ち上がりやすい。だが混ぜ方を誤ると、特定の能力が伸びないか、別の能力が犠牲になる。会話を増やしすぎると説明が冗長になることがあるし、コードを増やしすぎると通常文でもコードっぽい言い回しが増えることがある。専門文書を増やすと精密さは上がるが、一般ユーザへの説明が硬くなることがある。

配合設計の本質は、学習でモデルが見る「世界の比率」を決めることだ。モデルは頻度の高いスタイルを“普通”として学び、そこから外れるものを例外として扱う。したがって、プロダクトの用途に合わせて、どの話し方を標準にするかをデータ比率で設計する必要がある。

評価汚染を避ける:ベンチマークを暗記すると“良いモデル”に見えてしまう

データパイプラインで特に重要なのが評価汚染の回避だ。評価用のベンチマーク問題が学習データに混ざると、モデルは解法を学ぶのではなく「問題と答えのセット」を暗記してしまう。すると評価スコアは上がるが、未知問題への一般化能力は上がっていない。これは研究でも実務でも致命的で、モデル改善の判断を誤らせる。

回避策としては、評価セットに含まれる文章やその近似表現を学習データから除去する、あるいは評価セットを徹底的に秘匿し、学習データと照合できる形で管理するなどの方法がある。重複除去の技術はここでも使えるが、完全に防ぐのは難しいため、評価自体を複数用意し、汚染の影響を相対化する運用が重要になる。

まとめ:データパイプラインは「モデル設計の半分」であり、手戻りしにくい

学習データの構築は、収集して終わりではない。品質を定義し、ノイズを落とし、重複を削り、個人情報や機密のリスクを下げ、用途に合わせて配合比率を調整し、評価汚染を避ける。これらはすべて、モデルの能力と性格を決める不可逆に近い意思決定である。モデルのアーキテクチャが同じでも、データパイプラインが違えば別モデルになる。LLMを専門的に扱うなら、データを「原料」ではなく「仕様」として扱うことが出発点になる。


Read More from This Article: LLMの学習データはどう作られるか:収集からフィルタリング、重複除去、データ配合まで
Source: News

次トークン予測の本質:LLMが「理解」に見える振る舞いを獲得する学習目的

目的は一つ:次のトークンを“もっともらしく”予測する

次トークン予測とは、文章を左から右へ読み進めながら、次に来るトークンの候補に確率を割り当てることだ。モデルは、語彙表にある膨大な候補の中から「この文脈ならこれが来そうだ」という分布を出す。学習では、実際にデータに書かれていた正解トークンの確率が高くなるように、モデルの内部パラメータを調整する。

ここで重要なのは、モデルが学んでいるのは「真実」ではなく「データの中で起きやすいこと」だという点である。文脈に対してどの語が続きやすいか、どの文体が自然か、どの説明が一般的かといった統計的規則を身につける。そのため、知識が“覚えたっぽく”見えるのは、データの中で「その話題にはこういう言い回しが続く」パターンを大量に学んでいるからだ。

学習で何が起きるか:正解の確率を上げ、外れの確率を下げる

学習の基本は、「正解を選べた度合い」に応じてペナルティを与えることだ。もしモデルが正解トークンに高い確率を割り当てたならペナルティは小さく、低い確率ならペナルティは大きくなる。これをすべての位置、すべての文章で足し合わせ、平均して最小化する。結果としてモデルは、文脈に合う候補へ確率を寄せ、合わない候補から確率を引いていく。

この学習は、いわば「次に来る単語当てクイズ」を膨大なデータで繰り返すことに相当する。だがクイズの難易度は高い。文章の後半に効く情報が前半に埋まっていることもあるし、常識や世界知識が必要な場合もある。モデルは正解を当てるために、語彙の共起だけでなく、文法、論理のつながり、因果関係、話題の一貫性など、役に立つ手がかりを内部表現として獲得していく。

Teacher forcing:学習時は“正解の過去”を与えて前進する

次トークン予測の学習では、推論時のようにモデルの出力を次の入力として使うのではなく、常にデータの正解列を入力として与える。つまり、各位置の予測は「これまでの正しいトークン列」を条件に行われる。これをteacher forcingと呼ぶ。こうすることで学習が安定し、各位置で確実に「正しい文脈」に対して予測を学べる。

ただしこの方式は、推論時との差を生むことがある。推論ではモデルが一度間違えると、その間違いを含む文脈の上で次を生成し続ける可能性がある。学習では常に正解文脈が与えられるため、この“誤りの連鎖”を直接には学ばない。実運用での生成の癖やエラー伝播は、ここからも生じ得る。

パープレキシティ:モデルが「どれだけ迷わず当てられるか」を測る直観指標

パープレキシティは、次トークン予測モデルの評価に使われる代表的な指標で、「モデルがどれだけ迷ったか」を表すものだと理解するとよい。直観的には、各位置で候補が何択に見えていたか、という“実効的な選択肢の数”に近い。パープレキシティが低いほど、モデルは正解に高い確率を寄せられており、迷いが少ない。

この指標が便利なのは、教師データがあれば自動で計算でき、学習の進み具合を定量的に追える点にある。モデルサイズ、データ量、正規化、最適化手法を変えたときに、改善が起きているかを見やすい。

一方で、パープレキシティは万能ではない。なぜなら、パープレキシティが測っているのは「データ上の次トークンを当てる能力」であって、「人間が望む応答を返す能力」ではないからだ。会話で丁寧に答える、指示に従う、拒否すべきものは拒否する、といった振る舞いは、次トークン予測だけでは保証されない。これが、事前学習モデルと指示追従モデルが分かれる理由の一つでもある。

「良い予測」と「良い回答」は一致しない:目的関数のギャップ

次トークン予測で最適化されるのは、データにおける“もっともらしさ”である。ところがユーザが求めるのは、正確さ、安全性、役立ち度、簡潔さ、根拠提示など、別の軸を含む。たとえば曖昧な質問に対して、データの平均的な続き方は「断定してそれっぽく答える」方向に寄ることがある。これは、会話データや説明文が断定的に書かれていることが多いためで、モデルはそれを模倣する。その結果、根拠がないのに自信ありげに語る“幻覚”が生じる土壌ができる。

また、次トークン予測は、最終的なゴールではなく途中の一手を評価する。長い推論を要する問題で、途中の説明が少し不自然でも最終回答が正しいことはあり得るし、逆に途中の説明が流暢でも結論が間違うこともある。局所的な次トークンの当てやすさと、全体としての問題解決能力は一致しない場合がある。

データ分布がすべてを決める:汎化と分布ずれ

次トークン予測は、学習データの分布を学ぶ。したがって、学習データに多い表現や領域では強くなり、少ない領域では弱くなる。専門分野の厳密な定義や、最新の出来事、社内固有の用語、特定フォーマットのログなどは、データに含まれない限り得意になりにくい。これが「分布ずれ」の問題であり、LLMが突然弱くなる典型的な理由である。

さらに、学習データが混ざり物であるほど、“平均的なもっともらしさ”を選ぶ傾向が出る。専門的に尖った回答より、一般的で無難な回答が確率的に優位になりやすい。モデルが「当たり障りのない」応答に寄る現象は、こうした分布の平均化と目的関数の性質から説明できる。

実装と運用の観点:目的が単純だからこそ管理が重要になる

次トークン予測の学習自体は単純だが、実装では細部が重要になる。入力と正解を一つずらして対応させる必要があり、パディングされた部分は損失計算から除外しなければならない。ここを誤ると、モデルは「空白を当てる」ことばかり学んでしまう。また、長文を扱うときは、どの位置の損失をどれだけ重視するかも設計項目になる。末尾ほど重要なのか、全体を均等に扱うのかで、生成の性格が変わり得る。

運用面では、学習の指標が良くてもプロダクトでの品質が良いとは限らないため、目的に応じた評価軸が必須になる。対話品質、正確性、安全性、指示追従などは、次トークン予測の指標とは別に測る必要がある。このギャップを埋めるためにSFTやPreference学習が導入されるのは、自然な流れである。

まとめ:単純な目的が強力なのは、言語が“予測可能な構造”を持つからである

次トークン予測は、「次を当てる」だけの目的でモデルを鍛える。しかしその過程で、文法、意味、話題の一貫性、常識、説明の型といった、予測に有利な構造が内部表現として獲得される。パープレキシティは迷いの少なさを測る便利な指標だが、良い回答や望ましい振る舞いを保証しない。モデルが“理解”しているように見えるのは、予測に必要な抽象構造を学んでいるからであり、同時にその目的の限界が幻覚や迎合といった副作用も生む。LLMを正しく扱うには、学習目的が何を最適化し、何を最適化しないのかを、最初に言語化しておくことが不可欠だ。


Read More from This Article: 次トークン予測の本質:LLMが「理解」に見える振る舞いを獲得する学習目的
Source: News

位置情報の入れ方で性能が変わる:Transformerが「順序」を理解する仕組み

なぜ位置が必要か:自己注意は「並び替え」に鈍感である

自己注意は、各トークンが他のトークンを参照して情報を集める仕組みだが、その参照判断は「トークンの内容」から計算される。もし位置情報を何も与えなければ、同じトークン集合を別の順番に並べても、参照のしやすさが変わりにくい。極端に言えば、語順が入れ替わっても「同じ材料がある」と見なしてしまう危険がある。

しかし自然言語では、語順は意味そのものだ。主語と目的語の順、否定語の位置、条件節の範囲、修飾語がどこに掛かるかは、順序抜きには決まらない。さらに生成モデルとしてのLLMは、左から右へ順に生成するため、「どれだけ前の情報か」「直前の語か、かなり前の話題か」を区別する必要がある。したがってTransformerには、順序を表現する何らかの仕組みが必須となる。

位置情報を入れる基本発想:トークン表現に「座標」を混ぜる

位置表現の最も基本的な考え方は単純で、各トークンの埋め込みベクトルに、そのトークンが何番目に現れたかを表すベクトルを足す、あるいは結合する。これにより、同じ単語でも出現位置が違えば内部表現が変わり、注意が「位置の違い」を手がかりに参照先を選べるようになる。

ただし、どんな座標を与えるかで性質が変わる。例えば「学習時に見た最大長を超えると壊れやすい」方式もあれば、「長い文章でも比較的自然に外挿できる」方式もある。位置表現は単なる付け足しではなく、Transformerが長文をどう扱うかを決める設計要素である。

サイン波型(Sinusoidal):固定の規則で位置を表すという思想

サイン波型は、位置番号から決まる固定のベクトルを作り、それを埋め込みに足す方式である。特徴は、位置ベクトルが学習されない点にある。つまり、どの位置にどんなパターンの数値を割り当てるかは、人間が決めた規則で固定されている。

この方式が支持されてきた理由の一つは、学習していないため、理屈の上では「学習で見ていない長さ」にも拡張しやすいことだ。位置番号が増えても同じ規則でベクトルを作れるので、最大長を超えた位置にも座標を割り当てられる。また、異なる周波数の波を混ぜることで、近い位置は似たベクトルになり、遠い位置ほど異なるベクトルになるような性質が得られる。直観的には、位置を「多次元の時計の針の角度」で表すようなものだ。

一方で、固定規則であるがゆえに、実際のデータやタスクに最適な位置表現になっている保証はない。特に大規模なモデルでは、位置の扱い方を学習で最適化したい場面も多く、固定方式が常に有利とは限らない。

学習型(Learned):位置も語彙と同じく“覚える”

学習型の位置表現は、位置番号ごとにベクトルを持ち、それを学習によって獲得する。発想は単純で、「位置もトークンと同じように埋め込みを持つ」と考える。モデルがデータから最適な位置の使い方を学べるため、ある最大長の範囲内では性能が出やすい。

ただし弱点もはっきりしている。学習型は、学習で用意した最大長までしか位置ベクトルが存在しないか、存在しても学習されていない領域が出る。その結果、推論時に最大長を超えると、位置ベクトルが未定義になったり、適当に外挿しても挙動が不安定になったりする。長文対応をしたい場合、学習型だけに頼るのは難しく、別の工夫が必要になることが多い。

RoPE:位置を「足す」のではなく、参照の仕方そのものに織り込む

RoPE(回転位置埋め込み)は、位置情報を埋め込みに足すのではなく、「注意で参照先を決めるための内部計算」に位置を織り込む系統の方法だ。直観的には、各トークンが「探している方向」と「名札の方向」を、位置に応じて少しずつ回転させるようなイメージである。すると、二つのトークンの相性を測る際に、絶対位置そのものよりも「互いの距離」に関する情報が自然に効いてくる。

この性質は、言語の処理に都合が良い。多くの現象は「何番目か」より「どれだけ離れているか」の方が重要だからだ。たとえば直前の単語との依存、数語前に出た名詞との修飾関係、段落をまたいだ話題の継続など、相対距離の影響が強い。RoPEはこの相対性を扱いやすくし、結果として長文での挙動が改善しやすいと言われる。

ただしRoPEにも注意点はある。位置が大きくなる領域で回転が速くなりすぎると、モデルが見ていない範囲で相性のパターンが急変し、外挿が不安定になることがある。そのため実務では、周波数の調整やスケーリングなど、長文拡張のための追加テクニックが併用されることが多い。

ALiBi:距離が離れるほど参照しにくくする“バイアス”の注入

ALiBiはさらに別の発想で、注意の計算に「遠い位置ほど不利にする」偏り(バイアス)を入れる。直観的には、各トークンが参照先を選ぶときに、距離が離れているほどスコアにペナルティがかかるようにする。これにより、モデルは近い文脈を優先しやすくなり、必要なときだけ遠くを見にいく。

この方式の良い点は、位置ベクトルを用意しなくても距離の効果を持ち込めるところにある。さらに、距離ペナルティは理屈の上では任意の長さまで適用できるため、外挿の設計が比較的しやすい。もちろん、常に近い情報が重要とは限らないので、ペナルティが強すぎると長距離依存の学習を妨げる可能性がある。結局は、距離をどの程度重視するかという設計の問題になる。

長文コンテキスト拡張で何が壊れるか:位置表現は“学習分布”の外で弱い

位置表現に関してよく起きるのは、「学習で見た最大長」を超えると挙動が崩れる問題だ。これは単にトークン数が増えるからではなく、位置情報が学習分布の外に出るためである。学習型では未学習の位置ベクトルになるし、固定型でもモデルがその領域での位置パターンに慣れていない場合がある。RoPE系では、位置が大きい領域で相性のパターンが変化し、学習時と同じ“距離感”で注意を作れなくなることがある。

したがって長文対応を議論するときは、推論エンジンの高速化だけでなく、位置表現が長い領域でどのように振る舞うか、学習と推論の整合が取れているかをセットで考える必要がある。

まとめ:位置表現は「順序の理解」だけでなく「長文の安定性」を決める

Transformerは自己注意によって柔軟に文脈を参照できるが、順序そのものは自動的には手に入らない。サイン波型は固定規則で位置を与え、学習型はデータに合わせて位置を覚える。RoPEは参照の仕方に位置を織り込み、相対距離が効きやすい性質を持つ。ALiBiは距離に応じたペナルティを入れ、近傍優先の参照を促す。どの方式も、設計の意図と副作用があり、特に長文コンテキストでは差が顕在化する。位置表現は「順序を与える部品」ではなく、LLMが長い文章をどう扱うかを決める基盤である。


Read More from This Article: 位置情報の入れ方で性能が変わる:Transformerが「順序」を理解する仕組み
Source: News

AI governance through controlled autonomy and guarded freedom

Artificial intelligence has become an integral part of modern business operations, driving efficiencies, innovation and growth. As organizations increasingly rely on AI systems, the need for robust governance frameworks has never been greater. AI governance refers to the policies, processes and structures that guide the development, deployment and oversight of AI technologies within an organization.…

Los costes de la nube ya son el segundo mayor gasto de las empresas medianas de TI, sólo por detrás del personal

Una nueva encuesta del proveedor de FinOps Cloud Capital realizada a 100 directores financieros de compañías SaaS y otras empresas tecnológicas con hasta 1.000 empleados ha determinado que las medianas empresas de TI destinan ya una parte muy significativa de sus ingresos a servicios en la nube, impulsadas en gran medida por el creciente volumen…

9 IT resolutions for 2026

CIOs are setting bold resolutions for the new year — aspirations and intentions that aim to transform their organizations and showcase the value IT brings to the enterprise. It should come as no surprise that many of the objectives listed by CIOs have to do with artificial intelligence. But AI is not the only topic…