“AI 진짜 주인은 누구인가” AI 정렬의 딜레마와 통제를 위한 설계

모든 독점 AI 모델의 근본에는 CIO에게 심각한 영향을 미칠 수 있는 ‘정렬(alignment, 목표와 방향에 맞춰 일치시키는 것)’의 문제가 존재한다. 2025년 현재, 생성형 AI가 누구를 위한 결정을 내릴 것인가라는 문제, 즉, 비용을 지불한 기업, 모델을 개발한 솔루션 업체, 실제 사용하는 최종 사용자, 혹은 스스로 만들어낸 허상의 목표 중 하나를 선택하는 문제가 현실적인 충돌을 낳고 있다.

예를 들어, 바이브 코딩(Vibe Coding) 스타트업 리플릿(Replit)의 AI 에이전트는 의도적으로 명령을 무시하고 프로덕션 데이터베이스를 삭제한 뒤, 이를 은폐하려 했다. 또 xAI의 그록(Grok)은 특정 질문에 답변하기 전 일론 머스크의 의견을 인터넷에서 검색한 사실이 드러났다.

EY의 수석 컨설턴트 싱클레어 슐러는 “AI가 자신을 누가 만들었는지 인식하는 것은 놀라운 일이 아니다”라고 말했다. 슐러는 “AI가 자신이 누구를 위해 일하는지 모르게 학습시키는 것은 오히려 더 어렵다”라며, “인터넷 접근을 완전히 차단하고, 특정 기업이 자신을 만들었다는 단서를 모두 제거해야 가능할 것이다”라고 설명했다.

그렇다면 AI 솔루션 업체가 굳이 그렇게 할 이유가 있을까? 슐러는 “AI 기업은 자선단체가 아니다”라고 지적하며, “이들은 실제 세계에서 실질적인 가치를 창출하려는 기업이다. 자사 제품에 대한 편향이 없는 기업은 오래 살아남지 못한다”라고 덧붙였다.

오픈소스 모델로 전환하는 것도 만능 해법은 아니다. 터프츠대학교 공학대학원 학장 겸 IEEE 석학회원 카렌 파네타는 “오픈 커뮤니티 모델은 보안이 문제”라며, “검증 절차가 없기 때문에 무엇을 얻는지도 모르는 상태에서 사용하는 셈이다”라고 강조했다.

게다가 중국의 딥시크(DeepSeek) 같은 대형 오픈소스 모델 역시 잠재적인 편향 위험을 안고 있어, 많은 기업이 채택을 주저하고 있다.

새로운 리스크로 부상한 AI 정렬 문제

2025년 세일포인트(SailPoint)의 조사에 따르면, 전체 기업의 82%가 AI 에이전트를 활용하고 있으며, 이 중 80%는 에이전트가 의도하지 않은 행동을 한 경험이 있다고 답했다. 구체적으로는 39%가 접근해서는 안 되는 시스템에 접근했고, 33%가 부적절한 데이터를 열람했으며, 31%는 부적절한 데이터를 공유했고, 23%는 접근 인증 정보를 노출했다. 응답자의 2/3가 AI 에이전트를 점점 커지는 보안 위협으로 인식하는 이유다.

거버넌스 프레임워크와 가드레일을 구축하면 AI가 정해진 경계를 벗어나지 않게 관리할 수 있다. 그러나 세일포인트 조사에 따르면, 실제로 AI 에이전트를 위한 거버넌스 정책을 갖춘 조직은 44%에 불과했고, 에이전트가 접근하는 데이터를 추적·감사할 수 있는 기업은 52%뿐이었다.

문제는 점점 심각해지고 있다. EY가 전 세계 대기업의 C레벨 임원 975명을 대상으로 한 조사에서 99%의 조직이 AI 관련 위험으로 재정적 손실을 입었다고 답했으며, 일부는 피해 규모가 100만 달러를 넘었다.

이에 따라 일부 대기업은 예상치 못한 AI 행동을 탐지하기 위한 지속적 모니터링과 사고 대응 체계를 구축하고 있다. 그러나 이는 결코 쉬운 일이 아니다. 콘스텔레이션 리서치의 애널리스트 치라그 메타는 “AI는 블랙박스다. 모델이 자사 제품을 경쟁사 제품보다 더 추천하는지, 정치적 혹은 지역적 편향이 있는지, 아니면 다른 문제가 있는지를 알아내기가 어렵다”라고 설명했다.

메타는 “현재 그런 평가 체계가 존재하지 않는다. 모델 학습 과정을 추적할 수 있는 엄격한 감사 기준도, 이를 공개해야 하는 의무도 없다”라고 지적하며, “결국 최종 사용자가 스스로 의심하는 태도를 가져야 한다. AI 모델이 항상 옳은 일을 할 것이라고 맹신해서는 안 된다”라고 경고했다.

AI를 사람처럼 관리해야 하는 이유

기존 소프트웨어는 명시적인 명령어를 입력하면 컴퓨터가 그 지시를 일관되게 수행한다. 그러나 AI는 확률적(probabilistic) 방식으로 작동하기 때문에 전혀 예기치 못한 행동을 보일 수 있고, 그 이유가 고객의 이익에 반할 수도 있으며, 그 원인을 찾아내기도 어렵다.

예를 들어, 그록(Grok)이 갑자기 일론 머스크의 발언을 그대로 반복하기 시작한 이유에 대해 xAI는 “모델이 스스로 xAI에 의해 만들어졌다는 사실을 알고 있으며, 따라서 자신을 회사의 방향성과 일치시키기 위해 xAI나 일론 머스크가 해당 주제에 대해 한 발언을 검색한다”라고 설명했다.

이런 편향은 인간적인 성향에 가깝다. 일부 기업은 이 문제를 AI를 인간처럼 관리하는 방식으로 해결하려 하고 있다.

페이지듀티(PagerDuty)의 CIO 에릭 존슨은 “AI를 거의 사람처럼 관리해야 한다”라고 강조했다. 페이지듀티는 내부 운영과 자사 제품 및 서비스에 생성형 AI와 AI 에이전트를 도입했다. 존슨은 “예전에는 헬프데스크 직원이 많았지만, 지금은 에이전트형 솔루션이 사람 대신 고객 문의에 답변하고 있다. 지원 인력이 줄었지만, 대신 AI 에이전트를 감독하는 팀이 필요하다”라고 밝혔다.

이 관리 업무는 AI 에이전트가 배포되기 전 단계부터 시작된다. 존슨은 프로토타입 개발, 테스트, 파인튜닝 과정에서 “AI가 올바르게 응답하도록 교정하고 원하는 방식으로 작동하는지 확인해야 한다”라고 말했다.

운영 단계에서도 감독은 계속된다. 업무 효율화 목적의 에이전트라면 사용자가 스스로 감독의 역할을 수행한다. 존슨은 “AI가 항상 정확한 것은 아니고, 때로는 편향이 있기 때문에 매우 명확한 면책 조항이 있다”라고 강조했다.

페이지듀티는 아바쿠스 AI(Abacus AI) 플랫폼을 사용해 여러 최신 LLM 중에서 선택해 사용할 수 있도록 했다. 챗GPT, 클로드, 제미나이, 그록, 라마, 딥시크 등 다양한 모델이 포함돼 있다. 하지만 AI의 결정이 법적·재정적 영향을 미칠 경우, 단순 생산성 도구 수준을 넘어선 강화된 감독 체계가 필요하다.

존슨은 “새로운 직원이 입사했을 때와 비슷하다”라며, “사람이 계속해서 맡은 일을 제대로 수행하면 감독은 점차 줄지만, 그래도 여전히 팀과 주기적으로 점검하며 ‘신뢰하되 검증한다’는 원칙을 지킨다. 에이전트형 솔루션도 마찬가지일 것이다. 일정한 방식으로 운영되고 비즈니스 프로세스가 바뀌지 않았다면 신뢰할 수 있지만, 언제든 예기치 못한 문제가 발생할 수 있으므로 지속적인 모니터링이 필요하다”라고 설명했다.

존슨은 모니터링이 IT 부서와 비즈니스 부문이 공동으로 책임져야 할 영역이라며, “이제 사람들은 수많은 AI와 봇을 어떻게 운용하고 관리할지 이해해야 한다. 보이지 않는 곳에서 인프라와 기술은 매우 빠르게 진화하고 있으며, 사람들이 생각하는 것보다 훨씬 복잡하다”라고 덧붙였다.

AI로 AI를 감시하라

스타트업 쿠브(Qoob)는 생성형 AI를 활용해 8명 규모의 작은 조직으로도 업무 생산성을 대폭 확장하고 있다. 예를 들어, LLM 테스트 플랫폼 랭스미스(LangSmith)가 쿠브의 요구에 맞지 않자, 단 일주일 만에 자체 버전을 구축했다. 쿠브의 CTO 미카엘 퀴스트는 “AI 덕분에 원래 걸릴 시간의 1/5만에 완성할 수 있었다”고 말했다.

페이지듀티처럼 쿠브도 여러 LLM을 제품 개발과 업무 효율화 모두에 활용하고 있다. 퀴스트는 “우리는 항상 솔루션 업체를 평가하고 있으며, 문제가 생기면 다른 모델로 즉시 전환할 수 있다”라고 말했다. 쿠브가 AI를 통제하는 핵심은 지속적인 테스트와 평가다. 퀴스트는 “자동으로 여러 솔루션 업체를 상대로 평가를 실행하며, 하나가 실패하면 그 다음 모델로 전환하는 폴백(fallback) 로직이 있다”라고 설명했다.

모델이나 프롬프트가 바뀔 때마다 평가가 수행되며, LLM이 다른 AI의 출력을 판정하는 심사위원 역할을 한다. 여기에 머신러닝 기반 감정 분석이 더해진다. 또한 사람이 이 과정을 감독해 결과의 타당성을 검증한다.

개발자는 커서 IDE(Cursor IDE), 클로드 코드(Claude Code), VS 코드(VS Code) 등 다양한 개발 도구를 챗GPT나 클로드와 함께 사용한다. 코드 리뷰에는 깃허브 코파일럿(GitHub Copilot), 오픈AI의 코덱스(Codex), 클로드 코드를 함께 사용한다. 세 AI가 모두 쿠브의 코드를 검토해 문제를 식별한다.

퀴스트는 “AI마다 결과가 다르게 나온다. 이 차이를 바탕으로 어떤 부분을 수정할지 결정한다. 즉, AI가 AI를 감시하고, 최종 결정은 사람이 내린다”라고 설명했다.

카네기멜런대학교 비즈니스 테크놀로지학과 조이 지앙 교수는 “중요한 의사결정에 여러 AI 플랫폼을 병행 사용하는 것은 편향이나 비정렬 위험을 줄이는 데 매우 효과적인 전략”이라고 분석했다. 지앙 교수는 “예를 들어 직원이 웹 브라우저를 평가한다고 가정하면, 마이크로소프트의 AI는 엣지를 추천하겠지만, 다른 AI는 그렇지 않을 수도 있다. 중요한 비즈니스 결정일수록 이런 다중 평가가 충분히 가치 있다”라고 말했다.

EY의 싱클레어 슐러 역시 “이 접근법은 일회성 결정뿐 아니라 핵심적인 비즈니스 프로세스 전반으로 확장할 수 있다”라고 평가했다. 또, “현재 여러 LLM에 동시에 프롬프트를 전달한 뒤, 또 다른 LLM이 그중 어떤 응답이 가장 적절한지 판단하는 시스템이 개발되고 있다”라고 설명했다.

‘MoE(Mixture of Experts, 전문가 혼합)’ 접근법의 변형이지만, 일반적인 경우와 달리 모델들이 한 업체의 변형 모델이 아닌 만큼 동일한 편향에서 벗어날 수 있다. 다만 이런 방식은 비용이 많이 든다. 단일 모델에 질의하는 대신 여러 모델에 각각 질의하고, 그 결과를 평가하기 위한 추가 질의까지 필요하기 때문이다.

명확한 한계를 설정하라

AI 정렬을 확보하는 또 다른 방법은 AI가 접근할 수 있는 데이터나 시스템, 수행할 수 있는 행동에 대해 엄격한 한계를 설정하는 것이다. 지앙 교수는 “AI가 고객에게 가격을 제안하거나 할인을 제공한다면, 반드시 사전에 설정된 가격 한도를 넘지 않는지 확인해야 한다”라고 말했다.

이처럼 코드로 직접 제어되는 가드레일은 생성형 AI의 비결정적 특성이나 부주의한 인간의 실수를 피할 수 있다. 가장 극단적인 형태가 바로 ‘제로 권한(zero authority)’ 방식이다. 유니시스(Unisys) AI/ML 부문 부사장 크리스 베넷은 “이 방식에서는 챗봇이 입력을 받아 출력을 전달하는 역할만 한다”라고 설명했다. 실제 의사결정은 규칙 기반 시스템이 별도로 수행한다.

또 다른 방식으로 ‘최소 권한(least privilege)’ 접근법이 있다. 베넷은 “접근 권한은 보편적이어선 안 되고, 목적에 따라 제한돼야 한다. 예를 들어 코파일럿이 사용자 이메일에 접근해야 한다면, 세션당 단 한 개의 이메일만 접근하도록 제한하고 전체 사서함에는 접근할 수 없게 해야 한다”라고 설명했다.

결국 핵심은 아키텍처다

AI를 도입하는 기업이 AI의 주인이 되려면, 해답은 아키텍처에 있다. EY의 슐러는 “CIO가 아키텍처에 집중한다면 올바른 방향으로 가고 있는 것”이라며, “AI의 승부는 결국 아키텍처에서 갈릴 것”이라고 강조했다.

젠팩트(Genpact)의 전략·기업개발·글로벌 에이전틱 AI 총괄 최고 전략 책임자인 한진숙은 “AI 통제의 문제는 철학적인 질문이 아니라 설계의 문제”라며, “이는 가드레일, AI 감사 체계, 그리고 최종 검증을 담당할 인간 전문가를 포함한 의도적 구조적 선택이 필요하다”라고 설명했다.

한진숙 CSO는 “AI의 진짜 주인은 이런 시스템을 구축하는 사람”이라며, “집의 주인이 담장을 세우고 경계를 정하듯, AI의 주인도 위험을 어느 정도 감수할지 스스로 결정해야 한다”라고 조언했다.
dl-ciokorea@foundryco.com

Read More from This Article: “AI 진짜 주인은 누구인가” AI 정렬의 딜레마와 통제를 위한 설계
Source: News