Skip to content
Tiatra, LLCTiatra, LLC
Tiatra, LLC
Information Technology Solutions for Washington, DC Government Agencies
  • Home
  • About Us
  • Services
    • IT Engineering and Support
    • Software Development
    • Information Assurance and Testing
    • Project and Program Management
  • Clients & Partners
  • Careers
  • News
  • Contact
 
  • Home
  • About Us
  • Services
    • IT Engineering and Support
    • Software Development
    • Information Assurance and Testing
    • Project and Program Management
  • Clients & Partners
  • Careers
  • News
  • Contact

아마존, AI 도입 이후 잇단 서비스 장애…“운영 모델 재설계 필요” 지적

파이낸셜타임스(FT) 보도에 따르면, 아마존은 화요일 엔지니어링 회의를 소집해 AI 도구 사용과 연관된 “일련의 장애 사태(a spate of outages)”를 논의한 것으로 전해졌다.

FT는 의무 참석 회의를 위해 작성된 브리핑 노트를 인용해, 아마존이 최근 몇 달간 “영향 범위가 크고(high blast radius), 생성형 AI 지원 변경(gen-AI assisted changes)이 수반된 사건이 증가하는 추세(trend of incidents)”가 있었다고 밝혔다고 전했다. 해당 문서의 ‘기여 요인(contributing factors)’ 항목에는 “모범 사례와 안전장치가 아직 충분히 확립되지 않은 새로운 생성형 AI 활용(novel genAI usage)”이 포함된 것으로 나타났다.

이 보도는 아마존 엔지니어링 그룹 수석 부사장 데이브 트레드웰의 발언도 함께 인용했다. 트레드웰은 회의 자료에서 “앞으로 저연차 및 중간급 엔지니어가 수행하는 모든 AI 지원 변경 작업은 더 선임 엔지니어의 승인을 받아야 한다”고 명시했다.

그러나 컨스텔레이션 리서치의 수석 애널리스트 치라그 메타는 선임 엔지니어 승인 의무화가 오히려 AI 전략의 핵심 장점인 효율성을 약화시킬 수 있다고 분석했다. 메타는 “모든 AI 지원 변경에 대해 선임 엔지니어가 코드 변경 사항을 일일이 검토해야 한다면, 기업은 애초에 추구했던 속도 이점을 상당 부분 되돌려놓게 될 것”이라고 설명했다.

이어 “진정한 해결책은 검토 과정을 상류 단계로 이동시키고 이를 기계적으로 강제하는 것”이라며 “배포 전 정책 점검, 고위험 서비스에 대한 영향 범위 통제 강화, 카나리 배포 의무화, 자동 롤백, 그리고 어떤 변경이 AI 지원으로 이뤄졌는지, 누가 승인했는지, 이후 운영 환경에서 어떤 변화가 발생했는지를 항상 추적할 수 있는 변경 이력 관리 체계 강화가 필요하다”고 밝혔다.

이번 승인 요건 강화는 아마존과 아마존웹서비스(Amazon Web Services, AWS) 서비스를 중단시킨 여러 AI 관련 사고 이후 도입된 조치다. 이달 초 아마존 사이트가 약 6시간 가까이 중단되는 장애가 발생했으며, 지난해 12월에는 AWS의 한 서비스가 13시간 동안 중단되는 사고가 있었다.

피할 수 없는 장애

애널리스트와 컨설턴트는 아마존과 같은 기업이 대규모로 배포한 비결정적 시스템에서 난처한 문제가 발생한다는 사실은 놀라운 일이 아니라고 진단했다. ‘휴먼 인 더 루프(human in the loop)’ 방식은 타당한 접근이지만, 광범위한 배포 범위를 합리적으로 감당할 수 있을 만큼 충분한 인력이 전제돼야 한다는 지적이다.

예를 들어 의료 현장에서 한 사람이 8시간 근무 동안 2만 건의 검사 결과를 승인하도록 하는 것은 실질적인 통제 장치를 마련하는 것과 거리가 멀다. 이는 불가피하게 발생할 검사 오류에 대한 책임을 인간에게 전가하는 구조에 가깝다는 설명이다.

액셀리전스의 최고정보책임자 유리 고류노프는 이러한 장애가 본질적으로 불가피하다고 평가했다. 고류노프는 “새로운 기술을 기존 업무 프로세스에 도입하는 과정에서 나타나는 정상적인 성장통이자 자연스러운 다음 단계”라며 “생산성과 품질 측면의 이점은 즉각적이고 인상적”이라고 설명했다.

다만 고류노프는 “아직 연구하고 이해하며 개선해야 할 미지의 특이 현상이 분명히 존재한다”고 언급했다. 합의된 범위 안에서 생산성 향상이 보완 및 검증에 필요한 노력보다 크다면 문제가 없겠지만, 그렇지 않다면 해당 애플리케이션에 대해서는 기존 방식으로 되돌아가야 할 수도 있다고 밝혔다.

‘무모한’ 전략

반면 가트너의 부사장 애널리스트 나더 헤네인은 이러한 문제가 앞으로 더 빈번해질 것으로 내다봤다. 헤네인은 “이와 같은 사건은 앞으로 더 자주 발생할 것”이라며 “대부분의 조직은 AI 지원 기능을 신규 직원을 추가하듯 도입하면서, 이를 둘러싼 구조 자체는 바꾸지 않는다고 생각한다”고 지적했다.

헤네인은 “AI 시스템에 업무와 규칙집을 부여하면 통제했다고 여길 수 있지만, 실제로 AI는 그 규칙 안에서 목표를 달성하기 위해 가능한 모든 방법을 찾는다”며 “그 과정에서 창의적이면서도 때로는 우려스러운 허점을 활용할 수 있다”고 분석했다. 이어 “AI가 악의적이어서가 아니라, 단지 개의치 않을 뿐”이라며 “시간이 지나며 사람들이 형성하는 경계의식이나 공감, 직관적 판단 기준이 AI에는 없다”고 설명했다.

이와 관련해 렉시스넥시스 리스크 솔루션 그룹의 최고정보보안책임자 플라비오 비야누스트레는 일반적인 기업의 AI 전략을 “무모한 접근”이라고 평가했다. 비야누스트레는 “안전에 대한 감각이 부족하고 예측하기 어려운 천재적인 아이에게 성능 향상이나 비용 절감을 이유로 상당한 피해를 초래할 수 있는 권한을 부여하는 것과 유사하다”며 “이는 무모함에 가까운 정의에 해당한다”고 말했다.

비야누스트레는 “전통적인 방식이라면 최소한 독립된 테스트 환경에서 먼저 시도하고, 결과를 검증한 뒤 운영 환경으로 옮겼을 것”이라며 “휴먼 인 더 루프를 추가하면 속도가 느려지고 AI 활용 이점이 일부 줄어들 수는 있지만, 현재로서는 이러한 방식이 이 기술을 적용하는 올바른 방법”이라고 설명했다.

실질적 대응 방안

그러나 ‘휴먼 인 더 루프’만으로는 충분한 해법이 될 수 없다는 지적도 나온다. 사이버보안 컨설턴트이자 포머가브의 전무이사인 브라이언 레빈은 AI 노출을 최소화할 수 있는 다른 실질적 전술이 필요하다고 설명했다.

레빈은 “기존 품질보증(QA) 프로세스는 사람이 한 번도 본 적 없는 새로운 오류를 생성할 수 있는 시스템을 전제로 설계되지 않았다”며 “인간 감독을 단순히 추가하는 것만으로는 문제가 해결되지 않는다”고 밝혔다. 이어 “이 방식은 속도만 늦출 뿐, 근본적인 위험은 그대로 남는다”고 분석했다.

또한 “AI는 기계 속도로 ‘미지의 미지(unknown unknowns)’라는 새로운 유형의 실패를 만들어낸다”며 “이는 전통적인 의미의 버그가 아니라 창발적 행위에 가깝고, 단순한 패치로 해결할 수 있는 문제가 아니다”라고 설명했다.

레빈은 더 큰 문제로 오류의 확산 속도를 지적했다. “AI는 단순히 실수를 하는 것이 아니라, 그 실수를 즉시 전파한다”며 “기업은 AI 지원 변경을 위한 별도의 배포 파이프라인을 마련하고, 더 엄격한 게이팅과 자동 롤백 트리거를 갖춰야 한다”고 말했다.

이어 “AI가 코드를 작성할 수 있다면, 시스템에는 연쇄 장애를 차단할 수 있는 금융시장 서킷브레이커와 유사한 장치가 필요하다”며 “고객이 영향을 체감하기 전에 배포를 중단할 수 있도록 자동 이상 탐지 체계를 갖춰야 한다”고 전했다.

레빈은 목표가 AI를 더 촘촘히 감시하는 데 있는 것이 아니라, “AI가 문제를 일으킬 수 있는 경로 자체를 줄이는 것”이라고 설명했다. 샌드박싱, 기능 제한, 가드레일 우선 설계와 같은 기법이 모든 변경 사항을 수작업으로 검토하는 것보다 훨씬 효과적일 수 있다는 분석이다.

아울러 “AI는 개발 속도를 가속할 수 있지만, 핵심 인프라에는 항상 사람이 작성한 대체 경로를 마련해 두어야 한다”며 “그래야 AI 생성 변경이 예측 불가능하게 작동하더라도 시스템의 복원력을 확보할 수 있다”고 밝혔다.

별도의 운영 모델 필요

인포테크 리서치 그룹의 수석 리서치 디렉터 마니시 자인도 같은 의견을 내놨다. 자인은 이번 아마존 사례가 AI가 더 많은 실수를 한다는 증거라기보다, 이제 AI가 매우 큰 규모로 운영되면서 작은 오류조차도 “막대한 파급력(massive blast radius)”을 지니고 조직에 “존립을 위협하는 수준의 위험(existential threat)”이 될 수 있음을 보여주는 사례라고 분석했다.

자인은 “위험은 AI가 실수할 수 있다는 점이 아니다”라며 “진짜 위험은 재앙적 방향으로 치닫는 상황을 인간이 개입해 바로잡을 수 있는 시간을 급격히 압축한다는 데 있다”고 설명했다. 이어 “에이전트형 AI(agentic AI)의 등장으로 시장 출시까지 걸리는 시간은 기하급수적으로 단축됐지만, 이러한 기술 가속이 만들어낸 위험을 통제할 거버넌스는 그 속도를 따라 진화하지 못했다”고 지적했다.

다만 자인은 인력을 추가하는 것만으로는 해결책이 되지 않는다고 강조했다. 실제로 한 사람이 의미 있게 감독할 수 있는 범위를 현실적으로 산정하는 등 합리적인 설계가 필요하다는 설명이다.

자인은 “휴먼 인 더 루프는 신중한 접근처럼 들리지만 만능 해법은 아니다”라며 “규모가 커지면 루프의 속도는 곧 인간의 처리 속도를 앞지른다”고 말했다. 이어 “휴먼 인 더 루프는 모든 에이전트형 AI 문제를 해결하는 만능 도구가 될 수 없다”며 “자율성 수준, 영향 범위, 되돌릴 수 없는 정도와 같은 요소를 고려한 ‘휴먼 오버 더 루프(human over the loop)’ 통제와 병행돼야 한다”고 설명했다.

치라그 메타 역시 “AI는 운영 리스크의 양만 바꾸는 것이 아니라, 리스크의 형태 자체를 바꾼다”고 분석했다. 메타는 “AI 시스템은 겉보기에 그럴듯하고 피상적 검토를 통과할 수 있는 코드나 변경 지시를 생성하면서도, 경계 상황에서는 위험한 가정을 심어 넣을 수 있다”고 지적했다.

이어 “기업은 특히 결제, 신원 확인, 결제 처리, 가격 책정 등 고객 핵심 경로에서 AI 지원 운영 변경을 위한 별도의 운영 모델을 마련해야 한다”며 “이러한 업무 흐름은 실험에 대한 허용 범위가 극히 낮아야 하는 영역”이라고 밝혔다.
dl-ciokorea@foundryco.com


Read More from This Article: 아마존, AI 도입 이후 잇단 서비스 장애…“운영 모델 재설계 필요” 지적
Source: News

Category: NewsMarch 12, 2026
Tags: art

Post navigation

PreviousPrevious post:The hidden discipline behind AI data readiness successNextNext post:레노버, CIO 920명 설문 발표 “한국 AI 도입 속도 7배↑···CIO 조율자 역할 중요해져”

Related posts

SAS makes AI governance the centerpiece of its agent strategy
April 29, 2026
The boardroom divide: Why cyber resilience is a cultural asset
April 28, 2026
Samsung Galaxy AI for business: Productivity meets security
April 28, 2026
Startup tackles knowledge graphs to improve AI accuracy
April 28, 2026
AI won’t fix your data problems. Data engineering will
April 28, 2026
The inference bill nobody budgeted for
April 28, 2026
Recent Posts
  • SAS makes AI governance the centerpiece of its agent strategy
  • The boardroom divide: Why cyber resilience is a cultural asset
  • Samsung Galaxy AI for business: Productivity meets security
  • Startup tackles knowledge graphs to improve AI accuracy
  • AI won’t fix your data problems. Data engineering will
Recent Comments
    Archives
    • April 2026
    • March 2026
    • February 2026
    • January 2026
    • December 2025
    • November 2025
    • October 2025
    • September 2025
    • August 2025
    • July 2025
    • June 2025
    • May 2025
    • April 2025
    • March 2025
    • February 2025
    • January 2025
    • December 2024
    • November 2024
    • October 2024
    • September 2024
    • August 2024
    • July 2024
    • June 2024
    • May 2024
    • April 2024
    • March 2024
    • February 2024
    • January 2024
    • December 2023
    • November 2023
    • October 2023
    • September 2023
    • August 2023
    • July 2023
    • June 2023
    • May 2023
    • April 2023
    • March 2023
    • February 2023
    • January 2023
    • December 2022
    • November 2022
    • October 2022
    • September 2022
    • August 2022
    • July 2022
    • June 2022
    • May 2022
    • April 2022
    • March 2022
    • February 2022
    • January 2022
    • December 2021
    • November 2021
    • October 2021
    • September 2021
    • August 2021
    • July 2021
    • June 2021
    • May 2021
    • April 2021
    • March 2021
    • February 2021
    • January 2021
    • December 2020
    • November 2020
    • October 2020
    • September 2020
    • August 2020
    • July 2020
    • June 2020
    • May 2020
    • April 2020
    • January 2020
    • December 2019
    • November 2019
    • October 2019
    • September 2019
    • August 2019
    • July 2019
    • June 2019
    • May 2019
    • April 2019
    • March 2019
    • February 2019
    • January 2019
    • December 2018
    • November 2018
    • October 2018
    • September 2018
    • August 2018
    • July 2018
    • June 2018
    • May 2018
    • April 2018
    • March 2018
    • February 2018
    • January 2018
    • December 2017
    • November 2017
    • October 2017
    • September 2017
    • August 2017
    • July 2017
    • June 2017
    • May 2017
    • April 2017
    • March 2017
    • February 2017
    • January 2017
    Categories
    • News
    Meta
    • Log in
    • Entries feed
    • Comments feed
    • WordPress.org
    Tiatra LLC.

    Tiatra, LLC, based in the Washington, DC metropolitan area, proudly serves federal government agencies, organizations that work with the government and other commercial businesses and organizations. Tiatra specializes in a broad range of information technology (IT) development and management services incorporating solid engineering, attention to client needs, and meeting or exceeding any security parameters required. Our small yet innovative company is structured with a full complement of the necessary technical experts, working with hands-on management, to provide a high level of service and competitive pricing for your systems and engineering requirements.

    Find us on:

    FacebookTwitterLinkedin

    Submitclear

    Tiatra, LLC
    Copyright 2016. All rights reserved.