아마존웹서비스(Amazon Web Services, AWS) 중동 지역 고객이 3월 1일 발생한 드론 공격 이후 서비스 복구에 어려움을 겪고 있다. 이번 공격으로 아랍에미리트(UAE)의 두 개 가용 영역(Availability Zone)과 바레인의 한 개 가용 영역이 영향을 받았다.
AWS는 서비스 복구 작업을 진행하면서 정기적으로 상황을 업데이트하고 있다. 동시에 중동 지역에서 워크로드를 운영 중인 고객에게 해당 워크로드를 다른 AWS 리전으로 이전하는 조치를 지금 바로 진행할 것을 권고했다. AWS는 “고객은 재해복구(DR) 계획을 실행하고, 다른 리전에 저장된 원격 백업을 활용해 시스템을 복구해야 한다”라며 “또한 애플리케이션을 업데이트해 트래픽이 영향을 받은 리전을 우회하도록 해야 한다”고 안내했다.
이번 공격의 강도는 일부 기업의 재해복구 계획이 충분하지 않다는 점을 드러냈다.
‘블라스트 반경 감사’ 필요성 제기
시스코(Cisco) CX 엔지니어링 수석 엔지니어 닉 케일은 “이번 공격은 많은 기업이 수년 동안 잘못 이해해 온 문제를 드러냈다”라며 “대부분의 DR 계획은 전력 장애, 냉각 시스템 장애, 광케이블 단절과 같은 지역적이고 기술적인 장애를 전제로 작성돼 있다”라고 설명했다.
케일은 이어 “이번에 발생한 사건은 인프라 장애가 아니라 지정학적 요인에 의해 발생한 리전 단위 사건이다”라며 “만약 재해복구 계획이 특정 지리적 리전 전체가 하루아침에 운영하기 어려운 환경이 될 가능성을 고려하지 않았다면 그것은 재해복구 계획이 아니라 유지보수 매뉴얼에 가깝다”라고 지적했다.
케일은 이번 공격이 대부분 기업이 대비해 온 유형의 장애는 아니었다는 점도 인정했다. 그러면서도 기업 아키텍트가 어떤 장애가 발생했을 때 영향을 받는 범위 이른바 ‘블라스트 반경 감사(blast radius audit)’를 수행해야 한다고 조언했다.
닉 케일은 “모든 핵심 워크로드가 어느 물리적 리전에 위치하는지 매핑하고, 단일 리전에 의존하는 서비스가 무엇인지 식별해야 한다”라며 “단일 가용 영역이 일시적으로 문제를 일으키는 상황이 아니라 전체 리전이 완전히 중단되는 상황에서도 장애 조치(failover)가 실제로 작동하는지 점검해야 한다”고 설명했다.
또한 “이와 같은 사건을 견뎌낼 기업은 두꺼운 DR 문서를 가진 기업이 아니라 실제로 다른 대륙으로 장애 조치를 수행해 본 경험이 있는 기업”이라고 평가했다.
지금 즉시 DR 계획 가동해야
IT 서비스 기업 라스트 테크(Last Tech) CEO 브래드 래시터는 아직 포괄적인 재해복구 대응을 실행하지 않은 AWS 중동 고객이라면 즉시 DR 계획을 가동해야 한다고 조언했다.
브래드 래시터는 “고객은 다른 리전과 가용 영역으로 장애 조치(failover)를 수행하고 DNS와 라우팅 규칙을 점검해야 한다”라며 “가능한 경우 TTL(Time to Live)을 낮춰 네트워크가 필요에 따라 트래픽 흐름을 변경할 수 있도록 해야 한다”고 설명했다. 이어 기업이 고가치 거래를 검증하기 위해 일시적으로 수동 운영 방식으로 전환할 필요도 있다고 전했다.
한편 이번 장애로 인한 비용을 법적으로 보상받으려는 기업은 기대만큼의 결과를 얻지 못할 가능성이 있다는 분석도 나왔다.
클라우드 법률 전문 변호사이자 HCR 리걸(HCR Legal) 파트너인 프랭크 제닝스는 “대부분의 AWS 사용자는 드론 공격으로 인한 장애 상황까지 SLA를 확인했을 가능성은 낮다”라며 “그러나 대부분의 클라우드 SLA는 제공자가 합리적으로 통제할 수 없는 사건, 즉 ‘불가항력(force majeure)’ 상황으로 인한 다운타임을 가용성 보장 대상에서 명확히 제외한다”고 설명했다. 자연재해, 테러 행위, 전쟁 등이 여기에 포함된다고 덧붙였다.
다만 제닝스는 ‘불가항력’의 정의가 실제 계약에서는 상당히 모호한 경우가 많다고 지적했다. 프랭크 제닝스는 “해당 조항의 적용 범위는 계약 문구에 어떻게 명시돼 있는지에 따라 달라진다”고 언급했다.
프랭크 제닝스는 AWS 고객과 다른 하이퍼스케일러 서비스 사용자에게 계약 내용을 면밀히 검토할 것을 권고했다. 클라우드 서비스 계약을 단순하고 위험이 낮은 일반 상품 구매처럼 취급해서는 안 된다는 설명이다. 특히 불가항력 조항, SLA 예외 조항, 책임 제한 조항은 계약 체결 단계에서 반드시 면밀히 검토해야 할 항목이라고 제닝스는 전했다.
클라우드 전략 재검토 필요성 커져
닉 케일은 이번 중동 공격이 많은 조직이 앞으로 클라우드 전략을 다시 고민하게 만드는 계기가 될 것이라고 분석했다. 닉 케일은 “대부분 기업은 지연 시간과 가격을 기준으로 클라우드 리전을 선택한다”라며 “하지만 리전 선택 과정에서 지정학적 위협 모델을 적용하는 기업은 거의 없다”고 설명했다.
닉 케일은 이어 “이번 사건은 클라우드 리전 선택이 의도했든 그렇지 않든 결국 지정학적 판단이라는 사실을 보여줬다”고 언급했다.
닉 케일은 AWS가 고객에게 제시한 대응 지침 역시 사실상 처음부터 설계 단계에서 고려했어야 할 원칙이라고 설명했다. 워크로드를 여러 리전 간에 이동할 수 있도록 설계하고, 원격 백업은 영향 범위 밖에 보관하며, 특정 리전이 접근 불가능해지더라도 애플리케이션 수준에서 트래픽을 다른 경로로 전환할 수 있도록 해야 한다는 것이다.
AWS는 현재 서비스 복구 작업이 진행 중이라고 밝혔다. AWS는 3월 3일 오전 8시 14분(PST) 공지를 통해 “아마존 S3(Amazon S3)의 경우 PUT과 LIST 요청의 가용성이 지속적으로 개선되고 있으며, 새로 작성된 객체도 정상적으로 조회할 수 있는 상태”라고 설명했다.
AWS는 현재 다이나모DB 복구 작업을 진행하고 있으며, 해당 서비스가 복구되면 다른 서비스도 순차적으로 정상화될 예정이라고 밝혔다. 다만 해당 리전에서는 여전히 EC2 인스턴스의 성능이 제한된 상태라고 전했다.
dl-ciokorea@foundryco.com
Read More from This Article: 중동 AWS 장애로 서비스 마비 “클라우드 리전 선택도 지정학적 결정”
Source: News

