AIは間違えるだけではない、間違いを守ろうとするーー「ヒューマン・イン・ザ・ループ」の盲点

エンタープライズAIのガバナンスは「ヒューマン・イン・ザ・ループ」という考え方を前提にしてきた。モデルに生成させ、人間がレビューし、おかしければ指摘して修正する。一聞すると理にかなっている。しかしこの前提が不完全であることが、証拠とともに明らかになってきた。

HBS（ハーバードビジネススクール）の研究が、その懸念に証拠を与えた。GPT-4を使ってビジネス課題に取り組んだ72人のコンサルタントを対象にした実験で、専門家が出力を検証しようとすると、モデルは引き下がるのではなく、より強く押し返してきた。反論すればするほど、モデルは元の答えを受け入れさせようとより執拗に説得してきた。著者たちはこれを「パースウェージョン・ボンビング（persuasion bombing：説得爆撃）」と呼ぶ。

この発見は、エンタープライズAIの「人間がチェックすれば大丈夫」というこれまでの前提を揺るがす。AIがユーザーの反応に合わせてリアルタイムで変化するなら、そのチェックは中立ではない。モデルは答えを出すだけでなく、その答えが受け入れられやすい状況を作り出している。

モデルはどう反応しているのか

HBSの論文では、反論を受けたときのモデルの3つの対応パターンを説明している。

①より権威的で確信に満ちた口調で押す

②より多くの根拠や手順を加えてロジックを膨らませ

③懸念を一度認めた上で同じ結論に引き戻す

どれも答えをより正確にするわけではない。ただ拒絶しにくくするだけだ。AIのリスクは「間違えること」だけではない。「圧倒し、おだて、レビュアーを疲弊させて、誤った答えを通してしまうこと」にもある。

同様の問題は他の研究でも確認されている。Anthropicのお世辞（sycophancy）に関する研究では、主要なAIアシスタントが真実により近い回答よりもユーザーの見解に合う回答を系統的に好む可能性があることが示された。Anthropicはまた、人間の好みの評価がその行動を強化することも発見した——AIをより自然で使いやすくするためのトレーニングが、同時にユーザーの聞きたいことを言いやすくする副作用を生んでいる。Stanfordの研究者も11のAIモデルを対象に同様の傾向を確認している。AIは対人アドバイスの場面で、人間よりもはるかにユーザーの行動を肯定しがちで、ユーザー自身もそうした「同意してくれるモデル」を好む傾向があるという。

なぜこれがCIOの問題なのか

AIリスクはこれまで不透明性、過度な依存、精度という3つのカテゴリーで考えられてきた。これらは引き続き重要だ。しかし「説得」もこのリストに加えるべきだ。リスクはモデルが間違った答えを出すことだけではない。間違った答えをより確実に定着させるのが上手くなることにある。

このパターンは、多くの組織が肌で感じていることと重なる。チームはAI出力のレビューに時間をかける。答えは長くなり、詳細になり、洗練される。確信も高まる。しかし判断の質が上がっているとは限らない。深く関与したからこそ、むしろ確信してしまうケースもある。精査しているつもりが、実際にはAIに説得されているだけかもしれない。

そう考えると、「ヒューマン・イン・ザ・ループ」という表現は曖昧すぎる。人間がいても、構造的にAIの影響下に置かれている可能性がある。重要なのは人が関わっているかどうかではなく、そのレビューがAIの影響から独立しているかどうかだ。

生成と検証を分離する

同じスレッドでモデルを問い詰めることを監視と勘違いしていないだろうか。それはAIに説得される機会が増えているだけかもしれない。重要なタスクなら、検証は別の手段で行うべきだ。別のモデル、別のレビュアー、あるいは元の答えを守る動機を持たない批判システムを使う。HBSの著者は、効果的な検証には「並行エージェントまたは補完的な監視メカニズム」が必要かもしれないと明示的に主張している。

これがマルチエージェント設計が注目される理由の一つだ。意図的に異なる視点を持つエージェントを設けることで、説得的な固定化を弱められる。別の検証エージェントは同じ会話の流れに引き込まれずに反論できる。批判エージェントは答えを守る代わりに前提をテストする。こうした構造が、権威、ロジックの膨張、感情的な安心感というAIの説得パターンを断ち切る。

CIOが今すぐ取るべき3つの行動

「人間によるレビューがあれば安全」という単純な考え方をやめる： 
同じやり取りの中でのレビューと、外部でのレビューは異なる。重要な仕事には、別のセッション、2番目のモデル、構造化されたテストハーネス、または指定された検証者を通じた検証が必要だ

説得リスクを直接測定し始める：
 反論後の確信の高まり、同じ結論への繰り返しの回帰、精査下での回答の長さの拡大、ユーザーが異議を唱えた際に現れる安心させる言葉——これらは単なる文体上の癖ではない。システムが修正よりもコンプライアンスに最適化されている警告サインかもしれない

権限を再設計する：
 本当のガバナンスの問いは「モデルがこれを実行できるか」だけではない。「誰が、どんな証拠を持って、どんな決定権でそれを覆せるか」だ

かつての前提はシンプルだった——優れたモデルがより良い決断をもたらすという前提だ。しかし現実はそれほど単純ではない。優れたモデルは、弱い結論をより巧みに守り、もっともらしく聞こえながら人間の判断を同意へと引き寄せることも上手くなるかもしれない。

これはAI導入を遅らせる議論ではない。より良いコントロールを構築する議論だ。問いは「ループに人間がいるか」ではない。「AIが主張した後も、その人間が独立した判断を下せるか」だ。

AIは間違えるだけではない、間違いを守ろうとするーー「ヒューマン・イン・ザ・ループ」の盲点

モデルはどう反応しているのか

なぜこれがCIOの問題なのか

生成と検証を分離する

CIOが今すぐ取るべき3つの行動

Related posts