AIエージェント時代のデータ戦略 ―先行者利益獲得のための「AI-Readyデータ」整備とは？IDCアナリストが提言

「考える」から「実行する」へ―推論能力の飛躍的向上

鈴木氏はまず、企業のAI活用が新たな段階に入ったと指摘する。「2024年は生成AIが話題の中心でしたが、2025年になると、それは使えて当たり前。AIエージェントまでやってみたいという企業が非常に増えています」。

変化の背景にあるのが、AIモデルの推論能力の飛躍的な向上だ。中でも注目すべきは「Tool Use」（Function Calling）と呼ばれる技術の安定性向上だ。

「従来のプログラムでは、呼び出す条件やロジックを人間が事前に設計する必要がありました。しかし今のAIは、意味を判断して『これは外部モジュールに聞いた方がいい』と自主的に判断し、外部モジュールを呼びに行く。ここが大きく変わりました」と鈴木氏は説明する。

例えば、『顧客の購入金額が1万円以上』といった条件を設定するとそれに合致した場合のみ在庫確認システムを呼び出すのが従来のやり方とすれば、現在は問い合わせ内容や文脈から『この案件には在庫状況の確認が必要』とAIが判断し、適切なタイミングで外部システムにアクセスする、といったことが可能だ。

加えて、RAG（検索拡張生成）の進化も重要だ。推論の過程で検索を繰り返す手法やSelf-Correcting RAG（自己修正機能を持つRAG）など、多様な応用技術が登場し、AIコーディング能力の向上とも相まって、AIエージェントの実用性が格段に高まった。

具体的な成果も出ている。2025年7月には、Google DeepMindのAlphaGeometryが「記号演繹モジュール」を利用し、国際数学オリンピアードで金メダルに相当する成績を達成した。同じく7月には、Moonshot AIが開発した「Kimi K2 Thinking」が、200～300回の連続したツール呼び出しを安定して実行する能力を実証している。

従来は、多段階推論・行動において、初期方針と矛盾する行動を取る、途中の目標・制約を保持できない、過去の決定を忘れたかのように振る舞うという問題の克服が難しく、「30回の壁をどう超えるかが業界共通の課題でしたが、コンテキストウィンドウの拡張によってこの問題が解決されました」と説明する。

エージェンティックワークフローによる業務自動化が実用段階に入った今、企業には新たな課題が突きつけられている。それがデータ基盤の整備だ。

AIエージェントは、推論の過程で何度も外部データを参照しながら動作する。2024年まで主流だったRAGは入力時に一度だけデータを参照する仕組みだったが、2025年のAIエージェントは推論の実行フェーズで繰り返しデータにアクセスする。つまり、参照するデータの品質が、そのままAIエージェントの判断精度に直結するのだ。

スケーリング則の限界と「2026年問題」

AIの進化を語る上で欠かせないのが、2017年のTransformer論文以降の開発競争の歴史だ。2020年にはスケーリング則が発見され、「データ量×パラメータ数×計算リソース」を増やせば精度が向上することが明らかになった。2022年のChatGPT公開後は、LLMへの期待が一気に高まったが、技術的な競争の軸は、それより少し早く変化を迎えていた。同年発表のDeepMindによる「Chinchilla」論文が、単なるパラメータ増加競争に疑問を呈するものであったためである。

「Chinchillaの論文は、計算リソースが限られた条件下では、モデルのパラメータ数を増やすよりも、パラメータ数とデータ量のバランスを最適化する方が精度が高くなることを示しました。多くのLLMは過剰にパラメータを増やし、相対的にデータが不足する『Under-training』状態だった。この論文によって、業界の開発の方向性が変わりました」と鈴木氏は振り返る。

さらに深刻なのが、学習データの枯渇問題だ。「インターネット上の高品質な未学習テキストデータが枯渇しつつある」という指摘があり、データの枯渇が懸念される「2026年問題」として業界で議論されている。全世界のWebデータを一通り学習し終えた今、新たな高品質データの確保が困難になっているのだ。

「量は少なくても高品質なデータは、量は多くても低品質なデータの学習結果を遥かに凌ぐ。Metaの『Llama 3』開発でも、データ量を増やすよりも品質を上げた方が精度が向上したという結果が論文で示されています」と鈴木氏は説明する。

AI開発のテーマは、モデルの大きさからデータの品質へと完全にシフトした。鈴木氏は次のように強調する。「AI革命、いわばゴールドラッシュの競争は、AIモデル、つまりスコップよりも、データ品質、すなわち金脈の品位で決まる」。

5割の企業がデータ整備の壁に直面

では、日本企業の現状はどうか。IDC Japanが2025年3月に実施した調査によると、組織固有情報の整備状況について、第1・第2段階（AIで利用するには整備が必要）と回答した企業が約5割を占めた。

業界別に見ると興味深い傾向がある。「一般的には、金融業界がフィンテックで非常に先行しているという印象がありますが、実際のデータを見ると必ずしもそうでもない。むしろ流通業界がデジタルマーケティングを多く手掛けてきた経験から、段階別の構成比として少し先に進んでいる面もあります」と鈴木氏は分析する。

srcset=”https://b2b-contenthub.com/wp-content/uploads/2026/01/スライド1.png?quality=50&strip=all 2160w, https://b2b-contenthub.com/wp-content/uploads/2026/01/スライド1.png?resize=300%2C168&quality=50&strip=all 300w, https://b2b-contenthub.com/wp-content/uploads/2026/01/スライド1.png?resize=768%2C432&quality=50&strip=all 768w, https://b2b-contenthub.com/wp-content/uploads/2026/01/スライド1.png?resize=1024%2C576&quality=50&strip=all 1024w, https://b2b-contenthub.com/wp-content/uploads/2026/01/スライド1.png?resize=1536%2C864&quality=50&strip=all 1536w, https://b2b-contenthub.com/wp-content/uploads/2026/01/スライド1.png?resize=2048%2C1152&quality=50&strip=all 2048w, https://b2b-contenthub.com/wp-content/uploads/2026/01/スライド1.png?resize=1240%2C697&quality=50&strip=all 1240w, https://b2b-contenthub.com/wp-content/uploads/2026/01/スライド1.png?resize=150%2C84&quality=50&strip=all 150w, https://b2b-contenthub.com/wp-content/uploads/2026/01/スライド1.png?resize=854%2C480&quality=50&strip=all 854w, https://b2b-contenthub.com/wp-content/uploads/2026/01/スライド1.png?resize=640%2C360&quality=50&strip=all 640w, https://b2b-contenthub.com/wp-content/uploads/2026/01/スライド1.png?resize=444%2C250&quality=50&strip=all 444w” width=”1024″ height=”576″ sizes=”auto, (max-width: 1024px) 100vw, 1024px”>

IDC

データ整備が難しい理由は、RAG環境の構築・運用そのものの複雑さにある。

構築時の課題としては、データのサイロ化と品質（古い情報、重複、誤情報の整理）、非構造化データの処理（OCR、特徴量抽出、アノテーション、メタデータ付加）、そして検索の最適化が挙げられる。鈴木氏は「単純な全文検索では足りません。セマンティックに意味を理解した上での検索が必須です」と説明する。

運用時の課題はさらに深刻だ。情報の鮮度維持とリアルタイム同期、アクセス制御とセキュリティ、そして精度・ハルシネーションの監視が常に求められる。

鈴木氏は運用時の難しさをこう説明する。AIエージェントはリアルタイム処理が基本であり、常に正しい情報に基づいて動作する仕組みが必要だ。推論時にデータを参照し、それをそのまま見てAIがアウトプットするため、そのデータが間違っていると非常に深刻な事態になる。RAGの精度はLLMの文章生成性能よりも、参照データの品質に強く依存するのだ。

ユーザー企業の多くは、過去の状況と比較した相対的な生産性向上には満足しているが、同時に正確性や一貫性の基準を満たすことの困難さも認識している。鈴木氏は「フィードバックループを確立し、継続的な改善が不可欠です」と指摘する。

AIエージェント時代の「AI-Readyデータ」とは

AIエージェントの利用では、データ品質の重要性がさらに増す。その理由は、AIエージェントが複数の推論ステップを繰り返す構造にある。

鈴木氏はAIエージェントの特性をこう説明する。AIエージェントは「ReAct（Reasoning and Acting）」、つまり思考と行動を交互に繰り返す仕組みで動作する。ステップ1→2→3→…→Nを経て所定の結果に到達するわけだが、各ステップの精度が乗算で影響する。だからこそ、プロセス全体を評価するためのデータ整備が必須なのだ。

AIを適切に機能させるには、3つの異なる役割を持つデータが必要となる。

第一に「学習データ」。これはAIの基礎能力を決めるもので、ユーザー企業が自社LLMを構築する場合に該当する。

第二に「参照データ」。AIの実行能力を支えるもので、RAG用の知識ベースやTool Useで利用するデータベースがこれに当たる。ここでは最新値、アクセス性、リアルタイム性、整合性が求められる。

第三に「評価データ」。AIの信頼性を担保するためのものだ。鈴木氏は「最終的なアウトプットをチェックするだけでは、どの段階で道を外れ始めたのかが分かりにくい。全プロセスを評価するデータが必要で、この準備には専門家の助けが不可欠です」と強調する。

srcset=”https://b2b-contenthub.com/wp-content/uploads/2026/01/スライド2.png?quality=50&strip=all 2160w, https://b2b-contenthub.com/wp-content/uploads/2026/01/スライド2.png?resize=300%2C168&quality=50&strip=all 300w, https://b2b-contenthub.com/wp-content/uploads/2026/01/スライド2.png?resize=768%2C432&quality=50&strip=all 768w, https://b2b-contenthub.com/wp-content/uploads/2026/01/スライド2.png?resize=1024%2C576&quality=50&strip=all 1024w, https://b2b-contenthub.com/wp-content/uploads/2026/01/スライド2.png?resize=1536%2C864&quality=50&strip=all 1536w, https://b2b-contenthub.com/wp-content/uploads/2026/01/スライド2.png?resize=2048%2C1152&quality=50&strip=all 2048w, https://b2b-contenthub.com/wp-content/uploads/2026/01/スライド2.png?resize=1240%2C697&quality=50&strip=all 1240w, https://b2b-contenthub.com/wp-content/uploads/2026/01/スライド2.png?resize=150%2C84&quality=50&strip=all 150w, https://b2b-contenthub.com/wp-content/uploads/2026/01/スライド2.png?resize=854%2C480&quality=50&strip=all 854w, https://b2b-contenthub.com/wp-content/uploads/2026/01/スライド2.png?resize=640%2C360&quality=50&strip=all 640w, https://b2b-contenthub.com/wp-content/uploads/2026/01/スライド2.png?resize=444%2C250&quality=50&strip=all 444w” width=”1024″ height=”576″ sizes=”auto, (max-width: 1024px) 100vw, 1024px”>

IDC

では、こうしたAI-Readyデータを実際に整備する際には、どのような点に注意すべきか。鈴木氏は3つの視点が重要だと指摘する。

第一は運用区分の視点だ。Offline（学習用）とOnline（推論用）を区別し、学習用にはローデータ、メタデータ、時系列属性を、推論用には最新値、アクセス性、リアルタイム性、整合性を整備する必要がある。

第二はデータ種別の視点だ。構造化データと非構造化データで要件が異なる。構造化データではFeature Store（特徴量ストア）の品質と運用整合性が、非構造化データではメタデータの多様性・精度・検索性が鍵となる。

第三はデータ整備のメリットの視点だ。生産性と信頼性の両面を考慮する必要がある。生産性ではFeature Engineeringのしやすさと再利用性が、信頼性では鮮度、精度、一貫性、多様性が重要となる。鈴木氏は「特にTraining-Serving Skew、つまり学習時と推論時でデータの状態が異なってしまう問題を技術的に防止することが求められます」と指摘する。

srcset=”https://b2b-contenthub.com/wp-content/uploads/2026/01/スライド3.png?quality=50&strip=all 2160w, https://b2b-contenthub.com/wp-content/uploads/2026/01/スライド3.png?resize=300%2C168&quality=50&strip=all 300w, https://b2b-contenthub.com/wp-content/uploads/2026/01/スライド3.png?resize=768%2C432&quality=50&strip=all 768w, https://b2b-contenthub.com/wp-content/uploads/2026/01/スライド3.png?resize=1024%2C576&quality=50&strip=all 1024w, https://b2b-contenthub.com/wp-content/uploads/2026/01/スライド3.png?resize=1536%2C864&quality=50&strip=all 1536w, https://b2b-contenthub.com/wp-content/uploads/2026/01/スライド3.png?resize=2048%2C1152&quality=50&strip=all 2048w, https://b2b-contenthub.com/wp-content/uploads/2026/01/スライド3.png?resize=1240%2C697&quality=50&strip=all 1240w, https://b2b-contenthub.com/wp-content/uploads/2026/01/スライド3.png?resize=150%2C84&quality=50&strip=all 150w, https://b2b-contenthub.com/wp-content/uploads/2026/01/スライド3.png?resize=854%2C480&quality=50&strip=all 854w, https://b2b-contenthub.com/wp-content/uploads/2026/01/スライド3.png?resize=640%2C360&quality=50&strip=all 640w, https://b2b-contenthub.com/wp-content/uploads/2026/01/スライド3.png?resize=444%2C250&quality=50&strip=all 444w” width=”1024″ height=”576″ sizes=”auto, (max-width: 1024px) 100vw, 1024px”>

IDC

なぜ今、データ整備を急ぐべきなのか

鈴木氏はデータ整備を急ぐべき理由を3つ挙げる。「良質なデータという金脈は、早い者勝ちです。金脈を先に押さえ、ビジネスを変革した企業が、最大の利益を手にします」

第一の理由は、大きな先行者利益だ。AI時代の先行者利益は、従来のITソリューションよりも強固で持続的なものになる。

その鍵となるのが「データフライホイール効果」と「AIフライホイール効果」だ。フライホイールとは弾み車のことで、一度回り始めると慣性で回り続ける性質を持つ。AIにおいても同様の効果が働く。

ユーザー獲得→データ蓄積→AI精度向上→顧客体験向上→さらなるユーザー獲得という好循環が成立し、一度このサイクルが回り始めると、雪だるま式に効果が拡大していく。先行者はこの好循環を早期に確立できるため、後発企業との差が開き続けるのだ。

加えて、ネットワーク外部性も働く。利用者が多ければ多いほど参加者の利益が増え、先行者のプラットフォームが業界の「デファクトスタンダード」となる。顧客も開発者もそのエコシステムに参加するメリットが高まるのだ。

さらに、AIは利用者の情報を学習することで使い勝手が良くなる性質がある。鈴木氏は「使った者からすると、AIが自分のことを理解してくれている度合いが上がっていく。一旦使い始めると、新しいサービスに移って自分のことを覚え直してもらうのは抵抗がある。スイッチングコストが高くなるのです」と指摘する。

第二の理由は、プロジェクト総期間とバッファの確保だ。AIの開発はどこでつまずくか分からず、試行錯誤が前提となる。データとモデルの二重の試行錯誤を数多く行えるという意味で、なるべく早くプロジェクトを始めることが重要だ。

第三の理由は、AIアプリケーションに見られる「市場投入後の進化能力」だ。AIには市場で使われることで学習し、精度を向上していく特性がある。そのため、完成度を待つよりも、MVP（Minimum Viable Product）として最低限の機能で先行ローンチし、実運用の中で学習サイクルを回して競争力を高めるアプローチが合理的となる。

鈴木氏はMeta（当時Facebook）の有名なスローガンである「Move fast and break things（素早く動き、破壊せよ）」という言葉を引き、とにかく先に出すことの重要性を強調する。市場投入後の改善速度とコミットメントが、そのまま競争力につながるのだ。

データ整備を急ぐには何をすべきか

では、データ整備を加速するにはどうすればよいのか。鈴木氏は3つの方法を提示する。

第一に、プラットフォーム製品が持つ標準的なノウハウを活用すること。短期間にベースを構築できる利点がある。

第二に、データ活用の組織全体での民主化を目指すこと。わかりやすいツールやAI機能が生かされたツールを選ぶことで、全員参加の組織文化を醸成できる。

第三に、伴走してくれるベンダーを選ぶこと。鈴木氏は「AIは導入しておしまいではなく、運用フェーズが非常に大切です」と強調する。ノウハウを提供し、継続的にサポートしてくれるベンダーと組むことが重要だ。

では、どのようなプラットフォームを選ぶべきか。鈴木氏はAI時代のプラットフォームに求められる特徴として、オープン志向、機能拡張性、持続的成長の3点を挙げる。

オープン志向とは、自由に他のツールを組み合わせて使える環境のことだ。他社製品、OSSや競合ツールさえも、シームレスに連携できるAPIやコネクタを充実させているプラットフォームが望ましい。

機能拡張性とは、ユーザーが価値の創造者となれることを意味する。独自のロジック、アプリケーション、データプロダクトを構築しやすい環境を提供しているかどうかが重要だ。

持続的成長とは、使えば使うほど「賢く」なる仕組みのことだ。AIによる知識の蓄積機能などを備え、知識ベースの恩恵を組織全体にフィードバックすることで、プラットフォーム自体がユーザーと共に成長する。

企業規模別のAI活用戦略

鈴木氏は、企業規模に応じたAI-Readyデータの活用アプローチについても言及している。

小規模企業にとって、AIは人材と資金の課題を解決する強力な武器となる。AIで強化された業務アプリを活用することで、データ分析・活用を大幅に民主化できる。AI強化プラットフォームに凝縮された専門知識とカスタマイズ機能を活用し、「スピード」を武器に大企業に対抗することが可能だ。

中規模企業の強みは、顧客に深く入り込んだ関係性にある。ファインチューニングにより、少量のデータでも高精度な推論が可能になった今、深い顧客理解に基づく定性情報をAIで価値最大化できる。暗黙知をAIで組織的に活用し、専門人材不足を補いながら、データドリブン文化を構築することが鍵となる。

大規模企業は、データ量を生かした独自モデルの構築が可能だ。ローカルLLMやファインチューニングによる差別化、データネットワーク効果によるエコシステムの構築が、持続的な競争優位につながる。AIの進歩を見通した長期的戦略で、ベンダーとの協調的発展を図ることが重要だ。

srcset=”https://b2b-contenthub.com/wp-content/uploads/2026/01/スライド4.png?quality=50&strip=all 2160w, https://b2b-contenthub.com/wp-content/uploads/2026/01/スライド4.png?resize=300%2C168&quality=50&strip=all 300w, https://b2b-contenthub.com/wp-content/uploads/2026/01/スライド4.png?resize=768%2C432&quality=50&strip=all 768w, https://b2b-contenthub.com/wp-content/uploads/2026/01/スライド4.png?resize=1024%2C576&quality=50&strip=all 1024w, https://b2b-contenthub.com/wp-content/uploads/2026/01/スライド4.png?resize=1536%2C864&quality=50&strip=all 1536w, https://b2b-contenthub.com/wp-content/uploads/2026/01/スライド4.png?resize=2048%2C1152&quality=50&strip=all 2048w, https://b2b-contenthub.com/wp-content/uploads/2026/01/スライド4.png?resize=1240%2C697&quality=50&strip=all 1240w, https://b2b-contenthub.com/wp-content/uploads/2026/01/スライド4.png?resize=150%2C84&quality=50&strip=all 150w, https://b2b-contenthub.com/wp-content/uploads/2026/01/スライド4.png?resize=854%2C480&quality=50&strip=all 854w, https://b2b-contenthub.com/wp-content/uploads/2026/01/スライド4.png?resize=640%2C360&quality=50&strip=all 640w, https://b2b-contenthub.com/wp-content/uploads/2026/01/スライド4.png?resize=444%2C250&quality=50&strip=all 444w” width=”1024″ height=”576″ sizes=”auto, (max-width: 1024px) 100vw, 1024px”>

IDC

AI革命において、企業の競争力を決定づけるのは、「AIモデル」ではなく「データ品質」。良質なデータという金脈を先に押さえた企業が優位に進めることができる。CIOには、ビジネス課題解決の鍵となるAI-Readyデータ基盤の整備を急務と位置づけ、実績あるベンダーとともにスピード感を持って取り組むことが求められている。