制御と強化学習の間にある“空白”を埋める発想
ロボットを動かす技術は大きく分けると、モデルに基づく制御と、経験に基づく学習に分かれる。前者の代表は古典的な制御工学で、ロボットの力学モデルやセンサーの挙動がある程度わかっていることを前提に、目標との差分を埋めるように入力を調整する。後者の代表は強化学習で、最初から正しいモデルがなくても、試行錯誤の結果としてうまい行動を見つけていく。どちらも強力だが、現場に出るロボットはこの二つのど真ん中でつまずきやすい。
制御工学は、モデルが正しければ非常に安定している。しかし現実の現場は、モデルがいつも正しいとは限らない。床が濡れている、荷物の重心が少しずれている、空調の風で軽い部品が動く、同じ型番の部材でも摩擦が微妙に違う。こうした“地味なズレ”は、数式のモデルに載せづらい一方で、ロボットの成否を左右する。結果として、現場で制御を丁寧にチューニングしても、想定外の状況で破綻してしまう。
強化学習は、そうしたズレも含めて学習で吸収できそうに見える。ところが、現実のロボットに試行錯誤をさせるのは高い。転倒させるわけにはいかないし、失敗で周囲を傷つける可能性もある。データを集めるだけでも時間がかかる。つまり、強化学習が得意な「大量の試行」は、現実世界では制約が強すぎる。シミュレーター上で学習してから実機へ移す手法も広く使われるが、シミュレーターと現実の差、いわゆる“シム・トゥ・リアル”の壁にぶつかる。ここでまた、モデルの不正確さが問題として戻ってくる。
このジレンマを埋める発想が世界モデルだ。世界モデルは、現実のデータから「環境がどう反応するか」を学び、内部で予測できるようにする。重要なのは、世界モデルが“完全な物理法則”を手に入れることより、「意思決定に使えるレベルで未来を見積もる」ことを目指す点だ。たとえば、箱を押したときに数ミリ単位で正確にどこへ行くかよりも、押し方を変えれば倒れる危険が上がるのか、滑りやすいから押すより持つべきなのか、そういった判断ができれば価値がある。
さらに言えば、世界モデルは「行動の結果を先読みしてから動く」という意味で、制御と学習をつなぐ。制御の世界では、未来を少し先まで予測しながら入力を決める枠組みが昔からある。学習の世界では、その予測モデル自体をデータから獲得できる。世界モデルは、その二つを合体させたものとして理解すると腑に落ちやすい。ロボットが失敗しやすいのは、まさにこの“予測して選ぶ”能力が弱いからであり、世界モデルはそこを補うための設計思想だ。
予測してから動く。モデル予測制御と世界モデルの接続
ロボットに「やる前にわかる」を持たせるとき、分かりやすい比喩は脳内シミュレーションだ。人間も、コップを取ろうとするときに、頭の中で一瞬だけ「この角度だとぶつかるな」とか「ここを持てば滑らないな」と想像してから手を伸ばしている。世界モデルは、これを計算として実装するための部品になる。
このとき中心にあるのが、モデル予測制御(MPC)に近い考え方だ。MPCは、現在の状態から未来を短い地平で予測し、その予測の中で目的を最も満たす入力列を選ぶ。選んだ入力をすべて実行するのではなく、最初の一手だけを実行し、次の瞬間にまた観測して計画を更新する。こうすることで、モデルが少し不正確でも、観測で軌道修正しながら安定に動ける。世界モデルが入るのは、ここで使う「未来予測のモデル」を、解析的な物理モデルだけに頼らず、データから学習したものに置き換える部分だ。
ロボットでこの接続が効くのは、短期予測が十分役に立つ場面が多いからだ。たとえば、障害物回避では数秒先まで見通せれば安全性が上がる。把持や押し操作では、触れた直後の反応が読めれば失敗が減る。長期的に完璧な未来が読めなくても、「次の一手」を賢くするだけで成果が出る。世界モデルは、その短期予測をデータ駆動で鍛え、MPC的な枠組みに流し込めるのが強みになる。
ただし、ここで問題が出る。ロボットの世界は、観測できない状態が多い。カメラからは見えても、摩擦係数や内部応力、接触面の微細な凹凸は見えない。さらには、センサー自体が遅れたりノイズが乗ったりする。だから世界モデルでは、観測そのものではなく、潜在状態と呼ばれる内部表現を持つことが多い。潜在状態は、見えない要因も含めて「いま本当はこういう状況だろう」という推定をまとめたものだ。そして潜在状態の遷移を学ぶことで、観測に揺らぎがあっても、内部では滑らかに世界が動いているように扱える。
ここで大事なのは、世界モデルは“何を予測するか”を設計する必要があるという点だ。カメラ画像の画素を丸ごと予測するのは重いし、ロボットが必要とするのは画素そのものではないことが多い。物体の位置、姿勢、接触の有無、力の向きといった、行動選択に直接効く要素がわかれば十分な場合が多い。つまり、世界モデルは「行動に必要な抽象度」で世界を表現できるほど強くなる。
そして、現実に欠かせないのが不確実性の扱いだ。ロボットの操作は、同じ行動でも結果がぶれる。箱を押すとき、わずかな角度の違いで回転したり滑ったりする。もし世界モデルが一つの未来を断定すると、その未来が外れた瞬間に計画が崩れる。だから世界モデルは、未来に幅を持たせる必要がある。複数の可能性を出し、その中で「最悪のケースでも安全」な手を選ぶ、あるいは「不確実性が小さくなる行動」を先に選ぶ、といった戦略が取りやすくなる。ここが、単なる予測器ではなく、意思決定のための世界モデルとして価値が出るところだ。
一方で、長期予測を前提にすると誤差が積み上がる問題が出る。内部で一歩ずつ未来を生成していくと、少しのズレが雪だるま式に増え、数秒後には現実と別の世界に入り込むことがある。これを避けるために、短い地平で回し続けたり、観測で頻繁に補正したり、モデルの“信頼できる範囲”を明示的に扱う設計が重要になる。世界モデルをロボットに載せるというのは、モデルを作ること以上に、モデルと現実の付き合い方を作ることでもある。
現実世界での落とし穴と、安全に寄せる設計
世界モデルは、ロボットの失敗を減らす道具になりうる。しかし、導入すればすぐに賢くなるような魔法ではない。むしろ、世界モデルを入れた途端に失敗の種類が変わることがある。典型は「もっともらしい誤予測」に引っ張られる失敗だ。ロボットが内部シミュレーションで「この動きなら成功する」と判断しても、現実では摩擦が違って滑り、障害物に触れてしまう。ここで怖いのは、内部では整合が取れているので、失敗の理由が見えにくいことだ。外部から見ると、ロボットが自信満々に危険な動きを選んだように見える。
この問題の根っこには、データの偏りがある。世界モデルは観測されたデータから学ぶので、データが薄い領域の予測は弱い。現場のロボットは、業務でよく出る状況のデータは溜まる一方、危険な状況や異常系のデータは意図的に避けるため、そもそも学びにくい。結果として、いざ例外が起きると世界モデルは脆くなる。現実は皮肉で、安全のために避けたデータが、安全を作るために必要だったりする。
だから設計としては、世界モデルに頼り切らない構造が重要になる。まず基本は、保守的な制約を別レイヤーで置くことだ。速度や力の上限、立ち入り禁止領域、衝突が確実な行動の禁止など、世界モデルがどう判断しようと越えてはいけない柵を作る。世界モデルはその柵の中で最適化を行う。この分業があるだけで、誤予測が致命傷になりにくい。
次に大事なのが、異常を検知して“疑う”能力だ。世界モデルが予測した結果と、実際に観測された結果の差が大きくなったら、「いまモデルが当たっていない」サインになる。ここで計画を短くする、保守的な動きに切り替える、あるいは一旦停止して再推定する。こうしたモード切り替えがあると、世界モデルの弱点を運用でカバーできる。ここは、現場での安全文化に近い。航空機や工場設備が、異常時にフェイルセーフへ移るのと同じ発想で、世界モデルにも“降り方”を用意する。
また、現実的にはデータ収集の設計が世界モデルの成否を決める。ロボットが日常業務で集めるログだけでは足りないことが多い。わざと微妙に違う条件で動かしてみる、操作対象を変えてみる、センサーを変えてみる。そうして「モデルが揺さぶられる」データを確保すると、世界モデルは頑健になる。もちろん、危険な揺さぶりはできないから、安全な範囲での探索や、シミュレーターでの補助が必要になる。世界モデルは“安全に賢くなるための装置”だが、賢くするためにはやはり学習が必要で、その学習を安全に行うための設計が要る。
最後に、世界モデルは“責任の分界”も変える。従来のロボットは、制御則やルールベースのロジックで動き、動作の理由が比較的追いやすかった。世界モデルを入れると、行動が内部シミュレーションの結果で決まるため、説明や監査が難しくなる。現場で運用するなら、世界モデルがどの情報を根拠にどんな予測をしているか、少なくともデバッグ可能な形で可視化する必要がある。現場の人が「今日は床が滑るから危ない」と感じたとき、モデルがそれを反映できるのか、反映できないなら手動で保守モードに入れられるのか。こうした人間とのインターフェースを設計しないと、技術としては進んでも現場で嫌われる。
ロボットが失敗するのは、世界が複雑で、しかもその複雑さが“例外”として現れるからだ。世界モデルは、その複雑さを内部に取り込み、行動の前に結果を想像させることで、失敗の確率を下げる。しかし同時に、世界モデルが間違えば、間違った未来を信じて突っ込む危険も生む。だから鍵は、世界モデルを賢い脳として神格化するのではなく、不確実な仮説を作る道具として位置づけ、その仮説を現実の観測と制約で矯正し続ける設計にある。ロボットに「やる前にわかる」を与えるとは、未来を当てることではなく、当てられない未来と安全に付き合う仕組みを作ることなのだ。