아마존, AI 도입 이후 잇단 서비스 장애…“운영 모델 재설계 필요” 지적

파이낸셜타임스(FT) 보도에 따르면, 아마존은 화요일 엔지니어링 회의를 소집해 AI 도구 사용과 연관된 “일련의 장애 사태(a spate of outages)”를 논의한 것으로 전해졌다.

FT는 의무 참석 회의를 위해 작성된 브리핑 노트를 인용해, 아마존이 최근 몇 달간 “영향 범위가 크고(high blast radius), 생성형 AI 지원 변경(gen-AI assisted changes)이 수반된 사건이 증가하는 추세(trend of incidents)”가 있었다고 밝혔다고 전했다. 해당 문서의 ‘기여 요인(contributing factors)’ 항목에는 “모범 사례와 안전장치가 아직 충분히 확립되지 않은 새로운 생성형 AI 활용(novel genAI usage)”이 포함된 것으로 나타났다.

이 보도는 아마존 엔지니어링 그룹 수석 부사장 데이브 트레드웰의 발언도 함께 인용했다. 트레드웰은 회의 자료에서 “앞으로 저연차 및 중간급 엔지니어가 수행하는 모든 AI 지원 변경 작업은 더 선임 엔지니어의 승인을 받아야 한다”고 명시했다.

그러나 컨스텔레이션 리서치의 수석 애널리스트 치라그 메타는 선임 엔지니어 승인 의무화가 오히려 AI 전략의 핵심 장점인 효율성을 약화시킬 수 있다고 분석했다. 메타는 “모든 AI 지원 변경에 대해 선임 엔지니어가 코드 변경 사항을 일일이 검토해야 한다면, 기업은 애초에 추구했던 속도 이점을 상당 부분 되돌려놓게 될 것”이라고 설명했다.

이어 “진정한 해결책은 검토 과정을 상류 단계로 이동시키고 이를 기계적으로 강제하는 것”이라며 “배포 전 정책 점검, 고위험 서비스에 대한 영향 범위 통제 강화, 카나리 배포 의무화, 자동 롤백, 그리고 어떤 변경이 AI 지원으로 이뤄졌는지, 누가 승인했는지, 이후 운영 환경에서 어떤 변화가 발생했는지를 항상 추적할 수 있는 변경 이력 관리 체계 강화가 필요하다”고 밝혔다.

이번 승인 요건 강화는 아마존과 아마존웹서비스(Amazon Web Services, AWS) 서비스를 중단시킨 여러 AI 관련 사고 이후 도입된 조치다. 이달 초 아마존 사이트가 약 6시간 가까이 중단되는 장애가 발생했으며, 지난해 12월에는 AWS의 한 서비스가 13시간 동안 중단되는 사고가 있었다.

피할 수 없는 장애

애널리스트와 컨설턴트는 아마존과 같은 기업이 대규모로 배포한 비결정적 시스템에서 난처한 문제가 발생한다는 사실은 놀라운 일이 아니라고 진단했다. ‘휴먼 인 더 루프(human in the loop)’ 방식은 타당한 접근이지만, 광범위한 배포 범위를 합리적으로 감당할 수 있을 만큼 충분한 인력이 전제돼야 한다는 지적이다.

예를 들어 의료 현장에서 한 사람이 8시간 근무 동안 2만 건의 검사 결과를 승인하도록 하는 것은 실질적인 통제 장치를 마련하는 것과 거리가 멀다. 이는 불가피하게 발생할 검사 오류에 대한 책임을 인간에게 전가하는 구조에 가깝다는 설명이다.

액셀리전스의 최고정보책임자 유리 고류노프는 이러한 장애가 본질적으로 불가피하다고 평가했다. 고류노프는 “새로운 기술을 기존 업무 프로세스에 도입하는 과정에서 나타나는 정상적인 성장통이자 자연스러운 다음 단계”라며 “생산성과 품질 측면의 이점은 즉각적이고 인상적”이라고 설명했다.

다만 고류노프는 “아직 연구하고 이해하며 개선해야 할 미지의 특이 현상이 분명히 존재한다”고 언급했다. 합의된 범위 안에서 생산성 향상이 보완 및 검증에 필요한 노력보다 크다면 문제가 없겠지만, 그렇지 않다면 해당 애플리케이션에 대해서는 기존 방식으로 되돌아가야 할 수도 있다고 밝혔다.

‘무모한’ 전략

반면 가트너의 부사장 애널리스트 나더 헤네인은 이러한 문제가 앞으로 더 빈번해질 것으로 내다봤다. 헤네인은 “이와 같은 사건은 앞으로 더 자주 발생할 것”이라며 “대부분의 조직은 AI 지원 기능을 신규 직원을 추가하듯 도입하면서, 이를 둘러싼 구조 자체는 바꾸지 않는다고 생각한다”고 지적했다.

헤네인은 “AI 시스템에 업무와 규칙집을 부여하면 통제했다고 여길 수 있지만, 실제로 AI는 그 규칙 안에서 목표를 달성하기 위해 가능한 모든 방법을 찾는다”며 “그 과정에서 창의적이면서도 때로는 우려스러운 허점을 활용할 수 있다”고 분석했다. 이어 “AI가 악의적이어서가 아니라, 단지 개의치 않을 뿐”이라며 “시간이 지나며 사람들이 형성하는 경계의식이나 공감, 직관적 판단 기준이 AI에는 없다”고 설명했다.

이와 관련해 렉시스넥시스 리스크 솔루션 그룹의 최고정보보안책임자 플라비오 비야누스트레는 일반적인 기업의 AI 전략을 “무모한 접근”이라고 평가했다. 비야누스트레는 “안전에 대한 감각이 부족하고 예측하기 어려운 천재적인 아이에게 성능 향상이나 비용 절감을 이유로 상당한 피해를 초래할 수 있는 권한을 부여하는 것과 유사하다”며 “이는 무모함에 가까운 정의에 해당한다”고 말했다.

비야누스트레는 “전통적인 방식이라면 최소한 독립된 테스트 환경에서 먼저 시도하고, 결과를 검증한 뒤 운영 환경으로 옮겼을 것”이라며 “휴먼 인 더 루프를 추가하면 속도가 느려지고 AI 활용 이점이 일부 줄어들 수는 있지만, 현재로서는 이러한 방식이 이 기술을 적용하는 올바른 방법”이라고 설명했다.

실질적 대응 방안

그러나 ‘휴먼 인 더 루프’만으로는 충분한 해법이 될 수 없다는 지적도 나온다. 사이버보안 컨설턴트이자 포머가브의 전무이사인 브라이언 레빈은 AI 노출을 최소화할 수 있는 다른 실질적 전술이 필요하다고 설명했다.

레빈은 “기존 품질보증(QA) 프로세스는 사람이 한 번도 본 적 없는 새로운 오류를 생성할 수 있는 시스템을 전제로 설계되지 않았다”며 “인간 감독을 단순히 추가하는 것만으로는 문제가 해결되지 않는다”고 밝혔다. 이어 “이 방식은 속도만 늦출 뿐, 근본적인 위험은 그대로 남는다”고 분석했다.

또한 “AI는 기계 속도로 ‘미지의 미지(unknown unknowns)’라는 새로운 유형의 실패를 만들어낸다”며 “이는 전통적인 의미의 버그가 아니라 창발적 행위에 가깝고, 단순한 패치로 해결할 수 있는 문제가 아니다”라고 설명했다.

레빈은 더 큰 문제로 오류의 확산 속도를 지적했다. “AI는 단순히 실수를 하는 것이 아니라, 그 실수를 즉시 전파한다”며 “기업은 AI 지원 변경을 위한 별도의 배포 파이프라인을 마련하고, 더 엄격한 게이팅과 자동 롤백 트리거를 갖춰야 한다”고 말했다.

이어 “AI가 코드를 작성할 수 있다면, 시스템에는 연쇄 장애를 차단할 수 있는 금융시장 서킷브레이커와 유사한 장치가 필요하다”며 “고객이 영향을 체감하기 전에 배포를 중단할 수 있도록 자동 이상 탐지 체계를 갖춰야 한다”고 전했다.

레빈은 목표가 AI를 더 촘촘히 감시하는 데 있는 것이 아니라, “AI가 문제를 일으킬 수 있는 경로 자체를 줄이는 것”이라고 설명했다. 샌드박싱, 기능 제한, 가드레일 우선 설계와 같은 기법이 모든 변경 사항을 수작업으로 검토하는 것보다 훨씬 효과적일 수 있다는 분석이다.

아울러 “AI는 개발 속도를 가속할 수 있지만, 핵심 인프라에는 항상 사람이 작성한 대체 경로를 마련해 두어야 한다”며 “그래야 AI 생성 변경이 예측 불가능하게 작동하더라도 시스템의 복원력을 확보할 수 있다”고 밝혔다.

별도의 운영 모델 필요

인포테크 리서치 그룹의 수석 리서치 디렉터 마니시 자인도 같은 의견을 내놨다. 자인은 이번 아마존 사례가 AI가 더 많은 실수를 한다는 증거라기보다, 이제 AI가 매우 큰 규모로 운영되면서 작은 오류조차도 “막대한 파급력(massive blast radius)”을 지니고 조직에 “존립을 위협하는 수준의 위험(existential threat)”이 될 수 있음을 보여주는 사례라고 분석했다.

자인은 “위험은 AI가 실수할 수 있다는 점이 아니다”라며 “진짜 위험은 재앙적 방향으로 치닫는 상황을 인간이 개입해 바로잡을 수 있는 시간을 급격히 압축한다는 데 있다”고 설명했다. 이어 “에이전트형 AI(agentic AI)의 등장으로 시장 출시까지 걸리는 시간은 기하급수적으로 단축됐지만, 이러한 기술 가속이 만들어낸 위험을 통제할 거버넌스는 그 속도를 따라 진화하지 못했다”고 지적했다.

다만 자인은 인력을 추가하는 것만으로는 해결책이 되지 않는다고 강조했다. 실제로 한 사람이 의미 있게 감독할 수 있는 범위를 현실적으로 산정하는 등 합리적인 설계가 필요하다는 설명이다.

자인은 “휴먼 인 더 루프는 신중한 접근처럼 들리지만 만능 해법은 아니다”라며 “규모가 커지면 루프의 속도는 곧 인간의 처리 속도를 앞지른다”고 말했다. 이어 “휴먼 인 더 루프는 모든 에이전트형 AI 문제를 해결하는 만능 도구가 될 수 없다”며 “자율성 수준, 영향 범위, 되돌릴 수 없는 정도와 같은 요소를 고려한 ‘휴먼 오버 더 루프(human over the loop)’ 통제와 병행돼야 한다”고 설명했다.

치라그 메타 역시 “AI는 운영 리스크의 양만 바꾸는 것이 아니라, 리스크의 형태 자체를 바꾼다”고 분석했다. 메타는 “AI 시스템은 겉보기에 그럴듯하고 피상적 검토를 통과할 수 있는 코드나 변경 지시를 생성하면서도, 경계 상황에서는 위험한 가정을 심어 넣을 수 있다”고 지적했다.

이어 “기업은 특히 결제, 신원 확인, 결제 처리, 가격 책정 등 고객 핵심 경로에서 AI 지원 운영 변경을 위한 별도의 운영 모델을 마련해야 한다”며 “이러한 업무 흐름은 실험에 대한 허용 범위가 극히 낮아야 하는 영역”이라고 밝혔다.
dl-ciokorea@foundryco.com

Read More from This Article: 아마존, AI 도입 이후 잇단 서비스 장애…“운영 모델 재설계 필요” 지적
Source: News

아마존, AI 도입 이후 잇단 서비스 장애…“운영 모델 재설계 필요” 지적

피할 수 없는 장애

‘무모한’ 전략

실질적 대응 방안

별도의 운영 모델 필요

Related posts