지난 20일 발생한 대규모 서비스 장애에 대응해 AWS는 자사 클라우드 모니터링 서비스인 클라우드워치(CloudWatch)에 자동 사고 보고 기능을 새롭게 추가했다. 이번 기능은 사고 발생 시 관련 데이터를 수집·분석해 보고서를 자동 생성하는 데 초점을 맞췄다.
클라우드워치는 AWS 클라우드 서비스의 운영 상태를 모니터링하고, 변화에 실시간 대응할 수 있도록 지원하는 관측 서비스다. 새로 추가된 기능은 클라우드워치의 생성형 AI 어시스턴트인 ‘클라우드워치 인베스티게이션(CloudWatch Investigations)’에 내장돼 있으며, 기업이 사고 후 분석 보고서를 빠르게 작성할 수 있도록 설계됐다.
AWS는 블로그를 통해 “새 기능은 텔레메트리 데이터와 사용자 입력, 조사 과정에서의 조치 내역을 자동으로 수집·연계해 간결한 사고 보고서를 생성한다”라고 밝혔다.
AWS에 따르면 새 보고서에는 경영진 요약, 사고 발생 타임라인, 영향 평가, 실행 가능한 권고 사항 등이 포함된다. 이를 통해 기업은 문제 발생 패턴을 식별하고 예방 조치를 강화하며, 운영 효율성을 지속적으로 개선할 수 있다.
포레스터 수석 애널리스트 찰리 다이는 “이번 기능은 AWS가 최근 장애 이후 고객의 신뢰를 회복하기 위한 조치로 보인다”고 평가했다. 해당 장애는 이후 다이나모DB 엔드포인트의 오작동이 원인으로 밝혀졌다.
다이는 “새로운 자동 보고 기능은 기업이 복원력을 강화하는 데 효과적일 것”이라며 “그러나 AWS는 멀티 리전 아키텍처, 액티브-액티브(Active-Active) 장애 복구, 중복 DNS 전략을 보다 적극적으로 지원함으로써 고객이 다운타임과 비즈니스 리스크를 줄이도록 도와야 한다”라고 말했다.
또한 그는 “자동화된 보고 기능이 사후 분석 속도를 높일 수는 있겠지만, 근본적인 문제 해결을 위해서는 지속적인 제품 개선과 운영 최적화가 병행돼야 한다”라고 덧붙였다.
새로운 기능을 활용하려면, 기업 사용자가 클라우드워치 인베스티게이션 어시스턴트에 특정 서비스의 성능 저하나 다운타임 원인에 대해 질문하면 된다. AI 기반 어시스턴트는 시스템을 스캔해 관련된 텔레메트리 데이터를 찾아내고, 이를 토대로 가설을 생성한다. 사용자가 해당 가설을 승인하면 어시스턴트는 자동으로 사고 보고서를 작성한다.
AWS 문서에 따르면, 현재 이 기능은 미국 동부(버지니아 북부, 오하이오), 미국 서부(오리건), 아시아태평양(홍콩, 뭄바이, 싱가포르, 시드니, 도쿄), 유럽(프랑크푸르트, 아일랜드, 스페인, 스톡홀름) 등 주요 리전에서 제공된다.
이번 AWS 장애 이후 다른 관측 서비스 제공업체의 움직임도 활발하다. 데이터독은 여러 클라우드 서비스 제공업체의 서비스 상태를 한눈에 확인할 수 있는 무료 웹사이트를 공개했다.
다만 데이터독의 서비스는 완전히 새로운 개념은 아니다. 업다운레이더(Updownradar.com), 이즈더서비스다운(IsTheServiceDown.com), 다운디텍터(Downdetector) 등과 같은 상태 집계 및 사용자 보고 기반 모니터링 사이트들이 이미 유사한 기능을 제공하고 있다.
또한 주요 클라우드 제공업체들도 각각 서비스 상태 페이지를 운영 중이다. 마이크로소프트의 ‘애저 서비스 헬스(Azure Service Health)’는 개인화된 알림과 근본 원인 분석 보고서, 사고 대응 가이드를 제공하며, 구글 클라우드는 ‘서비스 헬스 대시보드(Service Health Dashboard)’와 맞춤형 경보 기능을 지원한다. 알리바바 클라우드는 긴급 대응과 사후 계획 수립을 위한 ‘인시던트 리스폰스 서비스(Incident Response Service)’를 제공하고 있다.
AWS의 이번 조치는 장애 대응 자동화의 중요한 진전으로 평가되지만, 근본적인 시스템 안정성과 복원력 확보를 위해서는 여전히 추가적인 기술적 투자가 필요하다는 분석이 나온다.
dl-ciokorea@foundryco.com
Read More from This Article: AWS, 대규모 장애 이후 클라우드워치에 ‘자동 사고 보고’ 기능 추가
Source: News

