AWS가 미국 버지니아 북부에 위치한 미 동부 리전의 안정성을 강화하고 서비스 중단을 줄이기 위한 새로운 DNS(Domain Name Service) 복원력 기능을 도입했다.
지난 10월, AWS 미 동부 리전에서는 DNS 장애로 다이나모DB API가 불안정해지면서 70종이 넘는 서비스가 광범위하게 영향을 받았다. 이로 인해 다수 고객사의 서비스가 수 시간 동안 중단됐고, AWS는 결국 DNS를 수동으로 복구해야 했다.
서비스가 완전히 정상화되는 데는 더 많은 시간이 소요됐다. 네트워크 구성 지연과 누적된 작업 처리가 뒤따랐기 때문이다.
AWS는 이번에 도입한 DNS 복원력 기능이 ‘공용 DNS 레코드 관리를 위한 신속 복구 기능(Accelerated recovery for managing public DNS records)’라는 이름으로 제공되며, 10월 장애를 촉발한 문제와 같은 DNS 관련 이슈를 해결하기 위해 설계됐다고 설명했다.
이 기능은 사람이 이해하기 쉬운 도메인 이름을 숫자로 된 IP 주소로 변환해 시스템 간 통신을 돕는 AWS의 클라우드 기반 웹서비스 라우트(Route) 53에 추가됐다. AWS는 26일 블로그를 통해 이 기능이 향후 장애 발생 시 복구 목표 시간(RTO)을 60분으로 보장하도록 설계됐다고 밝혔다.
AWS는 “이번 기능 강화로 고객은 리전 장애 상황에서도 DNS 변경과 인프라 프로비저닝을 계속 진행할 수 있어, 미션 크리티컬한 애플리케이션 운영의 예측성과 복원력을 높일 수 있다”라고 전했다.
데이터 계층과 제어 계층의 차이
AWS가 겪어 온 DNS 문제는 주로 트래픽 방향을 결정하는 관리 계층인 제어계층에 영향을 주는 경우가 많았으며, 실제 DNS 질의를 목적지까지 전달하는 데이터계층에는 문제가 발생하지 않는 경우가 일반적이었다.
HFS리서치의 부문 책임자 악샤트 티야기는 “AWS에서 큰 장애가 발생할 때 DNS 데이터 계층은 대체로 정상적으로 유지된다. 즉 인프라 자체는 계속 작동하지만, 미 동부의 제어계층이 멈추면 DNS를 제때 갱신해 트래픽을 우회할 수 없게 되고, 그 지점이 실제 장애가 되는 것”이라고 설명했다.
티야기는 이어 “이번에 추가된 기능은 그 빈틈을 보완하려는 것”이라며 “여러 리전에 걸쳐 강화된 제어 경로를 제공해 ‘ChangeResourceRecordSets’와 같은 핵심 API가 보장된 60분 복구 시간 내에 항상 사용 가능하도록 한다. 이를 통해 기업은 AWS의 복구를 기다리지 않고도 백업 리전으로 사용자 트래픽을 돌리거나, 대기 엔드포인트로 전환하거나, 재해복구 환경으로 즉시 전환할 수 있다”라고 전했다.
미 동부 리전, AWS의 구조적 병목으로 지적돼
미국 버지니아 북부에 위치한 AWS 미 동부 리전은 오랫동안 AWS 전체 아키텍처의 핵심 병목으로 꼽혀 왔다.
악샤트 티야기는 “AWS의 글로벌 서비스 상당수가 역사적으로 버지니아 북부 리전의 제어계층에 의존해 왔다. 이 리전이 흔들리면 전 세계가 그 여파를 고스란히 느낀다”고 말했다.
티야기 분석가는 이번 신규 기능이 여러 중요한 결함 중 하나를 개선하기는 했지만, 향후 발생할 장애의 영향을 완전히 막기에는 충분하지 않을 수 있다고 경고했다. 그는 “AWS가 핵심 API에 대해 더 강력한 교차 리전 장애 조치(failover)를 보장하고, 제어계층 책임을 여러 독립 리전에 분산하기 전까지 위험은 계속 남아 있다”고 설명했다.
티야기는 AWS가 향후 다중 리전 DNS 구성이나 제어계층 격리를 위한 더 구체적이고 일관된 설계 템플릿을 제공함으로써, 고객들이 장애 때마다 복잡한 아키텍처를 다시 구성해야 하는 부담을 줄일 수 있다고 조언했다.
DNS 복원력 경쟁에서 앞설 수도
이번 DNS 복원력 기능은 네트워크 장애를 계속 겪고 있는 다른 하이퍼스케일러와 비교해 AWS에 우위를 제공할 수 있다는 평가도 나온다.
티야기는 “애저, 구글클라우드, 클라우드플레어 모두 전세계 분산된 강력한 DNS 시스템을 운영하지만, 리전 장애 상황에서 DNS 제어계층 업데이트의 복구 시간을 명확히 보장하는 곳은 없다. 이 부분이 결정적 차이”라고 말했다. 그는 “이들 경쟁사는 DNS 질의 자체는 계속 처리된다고 보장하지만, 제어계층 장애가 발생했을 때 DNS 레코드를 얼마나 빨리 갱신할 수 있는지에 대해서는 구체적으로 밝히지 않는다”라고 덧붙였다.
AWS는 기업 고객의 다운타임을 줄이기 위한 기능을 꾸준히 강화하고 있다. 지난해 10월 장애 직후, AWS는 클라우드와치(CloudWatch)에 자동 사고 생성 기능을 추가한 바 있다.
dl-ciokorea@foundryco.com
Read More from This Article: AWS, 미 동부 리전 장애 대비해 DNS 복원력 기능 강화
Source: News

