AIを「評価する」新しい職種が台頭——企業が気づき始めた安全網の必要性

評価は「ゲート」ではなく「継続的な実践」だ

AIパイロットを通過したはずのエージェントが、本番環境で想定外の挙動を見せる——そんな事例が増えている。そこで、企業の中には「AI評価チーム」という新たな職種を設ける動きが出てきている。

Google CloudでプロダクトマネジメントとデータAIクラウドを統括するマネージングディレクター、Yasmeen Ahmad氏はこう語る。

「自律型の複雑なエージェントはこれまで存在しなかったものだ。実際に現場で動くエージェントを見た顧客は、評価は一度やれば終わりではなく、継続的に行うものだと気がつき始めている」

Googleでは、AI評価チームをエージェント開発グループに組み込み、開発と評価を並行して進める体制を取っている。「エージェントの構築と同時に評価が走っている。そうすることで、速い反復サイクルが生まれる」とAhmad氏は言う。

ソフトウェア開発会社Innowise のCIO、Maksim Hodar氏によれば、他の企業でも大規模なAI・IT部門の中にAI評価タスクフォースを設ける動きが始まっているという。新たに採用するのではなく、データアーキテクト、セキュリティ担当、コンプライアンス責任者を組み合わせてチームを編成するケースも多いという。

「あれば良い」から「なければならない」へ

AI評価チームのメンバーは、コーディングとビジネス倫理の間に立つハイブリッドな役割を担う。Hodar氏はこう断言する。「AI評価チームは『あれば良い』から『不可欠』へと進化しつつある。企業が盲目的なAI導入から脱却し、いわゆる『安全網』に対してより慎重なアプローチを取り始めている」

オブザバビリティやガバナンス製品など、AIの質の低い出力を防ぐためのツールが登場しているが、テクノロジーだけでは不十分だとHodar氏は言う。そのITツールが会社の価値観やGDPR(EUの一般データ保護規制)などの規制に沿っているかどうかを判断するのは、人間の役割だ。

「テクノロジーは技術的なエラーを検出できても、文脈を評価することはできない。テクノロジーは情報を提供するが、最終的にゴーサインを出すのは評価チームだ。説明責任は自動化できない」

テスト環境を通過したエージェントが、現場で失敗する理由

GoogleのAhmad氏も同じ見解を示す。オブザバビリティツールが提供するデータは評価チームに不可欠だが、テクノロジーだけではAIモデルやエージェントの不良な出力を修正するために必要な文脈を提供できない。AIエージェントはテスト環境では優秀な成績を収める。しかし、現実の状況での挙動を追跡するには人間の評価チームが必要だ。

「エージェント型アプリケーションは、想定したシナリオの単体テストは通過するかもしれない。しかしエージェントシステムは非決定論的な意思決定者だ。現実の世界でどのような挙動をとりうるか、そのすべてをテストしているわけではない」とAhmad氏は言う。

トークンの使用量、ツールの使用状況、ツールの障害、推論エラーといったデータはオブザバビリティツールで把握できる。しかし、問題の多くを修正するには人間の評価者が必要だ。評価チームは、エージェントが頻繁に犯す推論エラーに文脈を与えることができる。

「評価チームがエージェントの検証に費やす時間の大半は、『なぜここで推論が失敗したのか』を突き止めることに使われる」とAhmad氏、「エージェントが十分なコンテキストにアクセスできていないからだ。解決策は、エージェントが適切な推論判断を下せるよう、適切なレイヤーに適切なコンテキストを与えることだ」と続けた。

最大の障壁は技術ではなく、人間だ

契約ライフサイクル管理ベンダーAgiloftでAIオペレーション担当バイスプレジデントを務めるNoe Ramos氏は、優れた評価チームがカバーすべき課題として、ガバナンス、組織の文化的な準備状況、業務フローとの整合、そしてAIツールのビジネスへの測定可能なインパクトを挙げる。

「最大の障壁は技術的なものではなく、人間だ。強力なツールを導入しても、人々がそれを信頼せず、理解せず、自分の仕事にどう役立つかが見えなければ、うまくいかない」

Ramos氏はこう強調する。「AIは勢いだけで展開できるものではない」。AIを本格的にスケールさせるには、体系的な評価の仕組みが不可欠だ。

「AI評価とは安全のためだけではない。AIがノイズを増やすのではなく、明確さと行動をもたらすことを確かめるためのものだ」とRamos氏は言う。

Ramos氏は最近、ITバイスプレジデントからAIオペレーション担当バイスプレジデントに昇格した。評価をAgiloftのAI運用モデルに組み込むことが、チームのミッションだ。

評価チームが機能するための条件

「AI開発の優先順位は、聞こえてくる要望の大きさではなく、組織への貢献度で決めるべきだ」とRamos氏は言う。AI施策が声の大きい部門に引きずられるリスクを、氏は常に意識している。

評価チームをどこに置くかも重要だ。ITやセキュリティ、データ部門だけでなく、現場の業務部門も巻き込んだ場所に置くべきだとRamos氏は主張する。評価リーダーには、自社の業務フローへの深い理解が求められる。

「AI評価が失敗するのは、企業が自社のワークフローを把握できていないからだ。業務フローを整理せず、ボトルネックを特定せず、優先順位を揃えないまま——そんな状態でAIを評価しても意味がない」


Read More from This Article: AIを「評価する」新しい職種が台頭——企業が気づき始めた安全網の必要性
Source: News

人が違えば提供価値も違う:日米SIの人材構造・キャリア・評価制度の比較

キャリアパスの前提が違うと「強みの作り方」が変わる

日米のSIの違いは、技術や契約の前に、働く人のキャリアの前提から生まれている。日本では、メンバーシップ型の雇用慣行が長く続き、企業が人材を抱え、長期で育て、配置転換で経験を積ませる形が一般的だった。もちろん近年はジョブ型への移行や中途採用の増加が進んでいるが、なお「組織の中で育てる」文化は根強い。結果として、SIの強みは、個人の一点突破の専門性よりも、プロジェクトを回し切る総合力、調整力、品質文化の体得、顧客業務の理解といった“現場で身につく力”として蓄積されやすい。

米国では、ジョブ型の考え方がより強く、職務記述に基づいて採用し、専門性を市場で磨き、転職でキャリアを積むことが自然な選択肢になりやすい。SIにおいても、特定クラウドのアーキテクト、データエンジニア、セキュリティスペシャリスト、プロダクトマネージャー、チェンジマネジメントのコンサルタントなど、職能ごとの専門家を集めてプロジェクトを組成する発想が強い。個人は「自分の専門性が何か」を説明できることが重要になり、企業側は「その専門性をどう束ねて価値にするか」が競争力になりやすい。

この前提差は、SIが何を売りにするかにもつながる。日本のSIは、長期育成で培った組織的な品質と安定稼働を強みにしやすい。米国のSIは、専門家を投入して短期間で変革を進める推進力を強みにしやすい。どちらが優れているかではなく、「強みの作り方」が違うため、同じ言葉で比較すると誤解が生まれやすい。


役割分担が違うと、意思決定と責任の置き方が変わる

人材構造の違いは、プロジェクト内の役割分担にも表れる。日本のSIプロジェクトは、PMを中心に、要件定義からテスト、運用引継ぎまでを貫く体制を組みやすい。その中で、役割の境界は比較的柔らかく、個々人が複数の帽子をかぶりながら調整していく場面が多い。特に顧客折衝、協力会社管理、品質管理、進捗管理など、プロジェクトを成立させるための“横串”業務が厚い。これは、大規模でステークホルダーが多い案件において、強い武器になる。

米国のSIでは、役割の境界がより明確に定義されやすい。プロダクトの価値と優先順位を決める責任者、全体アーキテクチャの責任者、セキュリティの責任者、データの責任者、運用の責任者などが分かれ、それぞれが自分の領域で決定権と説明責任を持つ形になりやすい。もちろん現場で相互に支援はするが、「誰が何を決めるのか」が明確であることが、スピードと品質を両立させる前提になる。

この役割設計の差は、意思決定の方法を変える。日本の現場では、合意形成を重ねて関係者の納得感を作ることで、後戻りを減らし、リスクを下げる方向に働きやすい。米国の現場では、決める人が決め、結果を計測し、必要ならすぐに修正する方向に働きやすい。合意形成が不要という話ではないが、合意形成の主役が「会議の場」ではなく「責任者の判断」に寄りやすい。

日本で米国型の動きがうまくいかないとき、原因はコミュニケーション不足というより、役割と権限の設計が曖昧なまま、スピードだけを求めてしまう点にある。逆に米国で日本型のやり方がうまくいかないときは、責任者が判断を委譲せず、合意形成のプロセスに時間をかけ過ぎて、変化の機会を逃す点にある。人材と役割は、プロジェクトの運転方式を決める。


評価指標が違うと、提案の方向性が変わる

同じSI企業でも、何を評価するかで、現場の優先順位は変わる。日本のSIでは、稼働率や人月売上、納期遵守、品質、障害件数の少なさなど、安定運営に紐づく指標が重視されやすい。これはミッションクリティカルな領域での信頼を築くうえで合理的だが、別の副作用もある。再利用資産を作る、標準化に投資する、改善の仕組みを作るといった活動は、短期の稼働率や売上に直接結びつきにくい。すると、長期的には効く活動が後回しになりやすい。

米国のSIでは、当然売上や稼働の指標はあるものの、それに加えて成果指標や顧客価値、継続契約、拡張契約、顧客の成功事例といった“アウトカム寄り”の評価が前面に出やすい。例えば、クラウド移行の案件なら移行完了ではなく、移行後の運用コストやリリース頻度、障害復旧時間などが語られ、それが次の受注の根拠になる。個人の評価でも、専門性の影響度や顧客へのインパクト、リーダーシップが重視されやすく、会社としては「成果の説明ができる人材」を増やす方向に動きやすい。

評価が提案を変える、という点はとても重要だ。現場が工数を積むことで評価されるなら、提案は工数を前提に組み立てられやすい。成果を出すことで評価されるなら、提案は成果に至る道筋と再現性を示す方向に寄りやすい。言い換えると、ビジネスモデルの違いは、実は評価制度の違いとして現場に降りてくる。制度が変わらなければ、現場の行動も変わりにくい。


外部人材とパートナーの使い方が違う

日本のSIは、協力会社との連携によって大規模な体制を組み、長期で運用していく能力に強みがある。多様な企業が関わることで、特定領域のノウハウを補い、全国規模のリソースを確保し、品質と手順を統一しながらプロジェクトを進める。ここで重要なのは、協力会社を含めた全体を一つのチームとして機能させる統制力であり、これが日本のSIの総合力を支えてきた。

米国では、外部人材の使い方がより市場型になりやすい。専門領域に対して必要な期間だけ人材を確保し、プロジェクトごとに編成を変える。パートナー企業も、特定クラウドや特定業界に強い専門集団として機能しやすく、SIはそれらを束ねて価値を作る。契約の形も、専門性を前提に切り分けやすい。結果として、プロジェクトの初期から専門家を投入しやすく、短期で価値を出しやすい反面、チームの一体感や長期運用の継続性をどう担保するかが課題になることもある。

日本がこの差から学べるのは、外部人材活用の是非というより、専門性の調達と配置の設計だ。全部を自社で抱える必要はないが、外部に任せるなら、責任の分界線と知見の内製化の方針を決める必要がある。外部に依存し過ぎれば、組織に知見が残らない。内製にこだわり過ぎれば、変化のスピードに追随できない。どちらのバランスを取るかは、事業戦略と密接に関わる。


育成とナレッジ共有の仕組みが競争力になる

日米の差を“個人能力”の話に落とすと、本質を見失う。実際には、育成とナレッジ共有の仕組みこそが、組織としての差を生む。日本のSIは、OJTを通じて現場で育てる文化が強く、品質や手順、顧客対応の型が、時間をかけて体に染み込む。その一方で、知見が暗黙知として個人やチームに留まり、組織全体の再利用資産になりにくいことがある。プロジェクトの事情が個別最適に寄りやすいほど、知見は局所化しやすい。

米国のSIは、専門性を採用で確保しやすい分、組織としては「専門性を再現可能な形にして横展開する」ことに投資しやすい。フレームワーク、テンプレート、リファレンスアーキテクチャ、導入手順、ベストプラクティス集などを整備し、それを教育と連動させる。個人の経験を組織資産へ変換する回路が太いほど、プロジェクトの立ち上がりは速くなり、品質も安定しやすい。もちろん、これも万能ではなく、型が強すぎると現場適応が弱くなるが、型と適応のバランスを取る力が競争力になる。

日本のSIにとっての鍵は、現場力を維持したまま、暗黙知を資産化する方法を持つことだ。品質文化や調整力は、言語化が難しいが、難しいからこそ資産化できれば強い。ここができると、若手育成の速度も上がり、専門性の可視化も進み、顧客への説明も明確になる。


日本SIが人材面で取りうる現実解

日米比較の結論を「日本もジョブ型にしよう」「転職を増やそう」と単純化すると、現実から離れてしまう。重要なのは制度の模倣ではなく、提供価値に合った人材設計をすることだ。日本のSIが持つ強みは、プロジェクトを最後まで回し切る統制力、品質と安定稼働の知見、長期運用での改善力、顧客業務の深い理解にある。これらは、短期の専門家集団だけでは作りにくい価値でもある。

そのうえで、これから必要になるのは、専門性を組織の中で明確にし、可視化し、評価できるようにすることだ。例えば、クラウドアーキテクト、データ、セキュリティ、プロダクト、運用高度化といった職能を、肩書きではなく責任と成果で定義し、プロジェクトに適切に配置する。専門性の市場価値を認め、学習投資を継続し、再利用資産を作った人が報われる評価を設計する。これができれば、長期育成の強みを残しつつ、変化への強さを組み込める。

日米のSIの差は、人材の優劣ではなく、人材市場と組織設計が生む構造差だ。日本のSIは、長期運用と品質文化という強い土台を持っている。そこに専門性の可視化と再利用の仕組み、成果を語る評価軸を重ねられれば、国内市場でもグローバル市場でも、独自の強さを発揮できる。人が違えば提供価値が違うのではなく、提供価値を決める制度が、人の成長の仕方を変える。その視点で人材を設計することが、次の競争力につながる。


Read More from This Article: 人が違えば提供価値も違う:日米SIの人材構造・キャリア・評価制度の比較
Source: News

워크데이, 허정열 한국지사장 선임···국내 파트너 생태계 강화

이번에 선임된 허정열 워크데이코리아 지사장은 한국 시장의 성장 가속화와 파트너 생태계 강화를 중심으로 국내 비즈니스 전략을 총괄할 예정이다. 특히 국내 주요 기업들과의 협력을 통해 워크데이의 AI 기반 솔루션을 핵심 업무 전반에 통합하고, 기업들의 디지털 전환 및 AI 도입을 지원할 방침이다. 허 신임 지사장은 워크데이 이전에 아마존웹서비스(AWS), 구글, 세일즈포스 등 글로벌 기술 기업에서 25년 이상 근무하며…

칼럼 | 관망하는 CTO는 사라진다···AI 시대의 새로운 CTO상

불과 6개월 전만 해도 대규모언어모델(LLM)은 저연차 엔지니어의 업무를 대신할 수 있는 도구로 여겨졌다. 반복적인 보일러플레이트 코드는 맡기고, 핵심적인 사고는 사람이 담당하면 된다는 인식이었다. 비교적 안심할 수 있는 서사였다. 그러나 그 설명은 이미 낡았다. 현재 시장에 나온 최신 LLM은 한 사람이 동시에 모두 고려하기 어려운 각종 매개변수와 제약 조건, 복잡한 상호 의존성을 반영해 시스템 아키텍처를 설계할…

True multi-agent collaboration doesn’t work

Some AI advocates are selling a vision in which dozens of agents work together to solve complex problems with little to no human intervention. So far, that scenario is a myth. AI agents can be effective when working one-by-one on separate tasks, but when grouped together to complete complex assignments, they fail most of the…