지난해 11월에는 데이터베이스 오류로 스타벅스와 맥도날드 등 여러 대형 브랜드의 디지털 서비스가 멈췄다. 2024년에는 사이버보안 업데이트 여파로 항공편이 결항되고 수술이 취소되는 등 수천 건의 서비스가 중단됐다.
이제 IT 관련 재난은 ‘연말 결산’의 단골 소재가 됐다. 하지만, 앞으로 에이전틱 AI 시스템 확산이 복잡성을 더하면서 리스크는 점점 더 커질 전망이다.
퍼블릭 클라우드와 프라이빗 클라우드, 엣지 네트워크, GPU와 전문 하드웨어로 채워진 이른바 ‘AI 팩토리’가 새로운 워크로드를 떠받칠 것이다. 문제는 이 모든 요소가 서로 촘촘히 얽힌 ‘복잡한 그물망’을 이룬다는 점이다. 어느 한 요소만 멈춰도 비즈니스 회복성이 흔들릴 수 있다.
딜로이트 통합 리서치 센터의 어시스턴트 매니저 이람 파르빈은 “기술 리더들이 앞으로 던져야 할 질문은 AI가 요구하는 규모·속도·복잡성 속에서도 버틸 수 있는 인프라를 어떻게 구축하느냐”라고 강조했다.
다행히 IT 리더가 통제할 수 있는 영역은 분명히 존재한다. 광범위한 IT 의존성에서 비롯되는 리스크를 완화하고, ‘재난’을 막을 가능성도 있다. 다만 그에 앞서, 조직이 어떻게 이 정도의 복잡성에 휩싸이게 됐는지 되짚어볼 필요가 있다.
코로나19가 키운 IT 복잡성
최근 몇 년간 디지털 서비스 환경은 거칠었다. 하지만 놀랄 일은 아니라는 시각도 많다. 코로나19 팬데믹 당시, 전 세계로 분산된 팀의 생산성을 유지해야 했던 기업들은 온프레미스와 클라우드를 가리지 않고 수십 개의 신규 애플리케이션과 서비스를 빠르게 도입했다. 그 결과 IT 환경의 복잡성은 급격히 높아졌다.
이는 고객과 공급자 간 상호 의존성 확대로 이어졌다. 조직이 감당하기 어려울 정도로 API 호출과 엔드포인트가 늘어났고, 온프레미스·클라우드·마이크로서비스·SaaS가 뒤엉키며 장애 지점은 기하급수적으로 늘었다. 지금도 증가세다.
헬스케어 투자사 프레이저 헬스케어 파트너스(Frazier Healthcare Partners)의 AI·데이터·기술 총괄 대표 브래드 부식은 “CIO 관점에서 리스크 프로필이 ‘데이터센터 가동률’에서 ‘생태계의 취약성’으로 이동했다”라고 진단했다.
IDC 애널리스트 프랭크 딕슨은 “기업이 복잡성을 사실상 제도화했다”라고 표현했다. 또 “복잡성이 상호 연결 시스템으로 스며들면서, 예전에는 특정 시스템에서만 문제를 일으키던 요인이 이제는 전체 시스템으로 복제돼 확산될 수 있다”라고 덧붙였다.
3만 피트 상공에서 본 IT 회복탄력성
AI의 유혹을 외면하기 어려운 상황에서 조직은 애플리케이션과 서비스를 계속 늘리고 있다. 그렇다면 복잡성이 커지는 환경에서 IT의 회복탄력성을 확보하기 위한 이른바 ‘플레이북’은 무엇일까?
부식은 “CIO는 사이버 보안, 비즈니스 연속성, 아키텍처를 하나의 엔터프라이즈 규율로 통합해야 한다”라며, “장애를 전제로 하고 그 위에 설계해야 한다”라고 말했다. 핵심은 최소 운영 가능 비즈니스(minimum viable business, MVB)를 유지하는 데 있다. MVB의 정의는 업종별로 다르지만, 항공사라면 고객이 항공권 예약 시스템에 항상 접근할 수 있어야 한다.
딕슨은 “최종 사용자가 이메일을 확인하지 못하는 것도 문제지만, 항공사가 비행기를 띄우지 못하면 그 순간 비즈니스가 끝난다”라고 강조했다.
IT 회복탄력성 플레이북
현장에서 IT 리더는 무엇을 해야 할까? 접근은 ‘다층 구조’여야 하며, 보호 수준도 선제적·능동적·대응적으로 나뉘어야 한다는 제언이 나온다.
포레스터 리서치의 대표 애널리스트 브렌트 엘리스는 선제적 조치로 “프로덕션 환경의 회복탄력성 수준을 끌어올리는 기술 아키텍처 선택과 계약 전략”을 꼽았다. 장애, 사이버 보안 사고, 자연재해 등을 가정해 인력과 핵심 시스템을 압박 테스트하는 모의 훈련도 여기에 포함된다.
부식은 전사 IT 시스템과 분리해 운영해야 할 ‘핵심 플랫폼’을 구분하는 방식도 소개했다. 전자건강기록(EHR) 시스템, 의약품 및 모니터링 시스템 같은 영역을 일반 IT와 분리해 장애나 사이버 공격에 대비하는 방식이다.
이 과정에서 IT 리더가 활용할 수 있는 기술 도구도 다양하다. ‘옵버버빌리티(Observability, 관찰가능성)’가 대표적이다. 로그·메트릭·트레이스 같은 텔레메트리 데이터를 기반으로 IT 시스템의 상태와 성능을 깊이 들여다보는 소프트웨어 도구다. 기존의 모니터링이 ‘이미 알고 있는 문제’를 감시하는 데 중점을 둔다면, 옵저버빌리티는 시스템 동작을 질의해 ‘새로운 유형의 이슈’를 조기에 탐지·디버깅하고, 환경에 악영향을 주기 전에 차단하도록 돕는다.
능동적 조치는 일상 운영 전반과 비즈니스에서 기술을 모니터링·관리하는 데 쓰이는 서비스 영역을 포함한다. 대응적 조치의 고전적인 예로는 백업, 재해복구(DR) 인프라, 페일오버 및 고가용성(HA) 환경, 인시던트 대응 계획, 위기 관리 체계 등이 있다.
영역 간 일부 중복은 있을 수 있지만, 결국 중요한 것은 ‘구성요소나 서비스 단위’가 아니라 ‘시스템 단위’에서 회복탄력성을 확보하는 일이다. 기술 환경이 바뀔 때마다 회복탄력성 체계도 함께 테스트해야 한다는 뜻이다.
엘리스는 “조직적으로는 기술 구현과 비즈니스 사이의 벽을 허물어야 한다”라며, “지금은 기술이 곧 비즈니스이고, 기술 회복탄력성이 곧 비즈니스 회복탄력성이기 때문”이라고 말했다.
AI ‘쓰나미’에 대비하기
시스템 장애, 사이버 공격 등으로부터 핵심·비핵심 업무를 지키기 위한 이런 베스트 프랙티스는 앞으로 더 중요해질 전망이다. AI 워크로드 소비가 늘어날수록, 회복탄력성의 ‘우선순위’ 자체가 올라가기 때문이다.
아직 대부분 조직이 에이전틱 AI를 대규모로 운영하는 단계는 아니다. 그러나 기술이 주류로 자리 잡는 순간, 비즈니스 리스크는 기하급수적으로 커질 수 있다는 경고가 나온다. 딕슨은 “에이전틱 시스템은 생산성을 높일 수 있지만, 동시에 조직 전체를 한꺼번에 망가뜨릴 수도 있다”라며, 지난해 에이전틱 코딩 도구가 데이터베이스 전체를 삭제한 사례를 언급했다.
에이전틱 AI 시스템이든 물리·가상 공급망이든, 100% 해법은 없다. 사람·기술·프로세스를 아무리 준비해도 기업은 서비스 업체와 도구, 그리고 ‘전통적인 인간의 실수’의 영향을 받을 수밖에 없다. 딕슨은 “완벽함이 아니라 ‘충분히 좋음’의 문제”라며, “복잡성을 줄이고 중복성을 늘리며 시스템을 더 좋게 만드는 방법을 찾아야 한다”라고 말했다.
dl-ciokorea@foundryco.com
Read More from This Article: “연쇄 장애의 시대” CIO를 위한 IT 회복탄력성 플레이북
Source: News


