Skip to content
Tiatra, LLCTiatra, LLC
Tiatra, LLC
Information Technology Solutions for Washington, DC Government Agencies
  • Home
  • About Us
  • Services
    • IT Engineering and Support
    • Software Development
    • Information Assurance and Testing
    • Project and Program Management
  • Clients & Partners
  • Careers
  • News
  • Contact
 
  • Home
  • About Us
  • Services
    • IT Engineering and Support
    • Software Development
    • Information Assurance and Testing
    • Project and Program Management
  • Clients & Partners
  • Careers
  • News
  • Contact

구글 클라우드, 7시간 넘는 전 세계 장애로 50개 이상 서비스 중단···기업에게 주는 시사점은?

이번 장애는 협정세계시(UTC) 기준 13일 오후 2시 51분에 발생해 오후 10시 18분에야 복구됐으며, 총 7시간 이상 지속됐다. 구글 클라우드 서비스 상태 페이지에 따르면, API 게이트웨이(API Gateway), 에이전트 어시스트(Agent Assist), 클라우드 데이터 퓨전(Cloud Data Fusion), 클라우드 워크스테이션(Cloud Workstations), 컨택센터 AI 플랫폼(Contact Center AI Platform), 데이터베이스 마이그레이션 서비스(Database Migration Service), 구글 앱 엔진(Google App Engine), 구글 클라우드 콘솔(Google Cloud Console), 버텍스 제미니 API(Vertex Gemini API) 등 총 54개 구글 클라우드 플랫폼 제품이 영향을 받았다.

구글 대변인은 “구글 클라우드의 여러 서비스에 발생한 장애는 현재 전면 복구됐다”라고 13일전했다. 구글 클라우드 CEO 토머스 쿠리안은 X 계정을 통해 “오늘 발생한 장애 복구를 위해 총력을 기울였고, 현재 모든 리전과 제품에서 완전한 복구가 완료됐다”라며 “이번 사태로 고객에게 불편을 끼친 점을 유감스럽게 생각한다”라고 밝혔다.

구글 클라우드 측은 미니 사고 보고서를 통해 “이번 사고는 API 관리 시스템에 잘못된 자동 할당량 업데이트가 글로벌하게 전파되며, 외부 API 요청이 거부되는 문제가 발생했다”라고 설명했다. 구글은 문제 해결을 위해 해당 할당량 확인 절차를 우회하는 방식으로 대응했으며, 이로 인해 대부분의 리전에서는 2시간 내 복구가 이뤄졌다. 그러나 미국 중부 리전에서는 할당량 정책 데이터베이스가 과부하되며 복구가 더디게 진행됐다.

구글 클라우드는 이러한 사고가 발생해서는 안 됐다며, 향후 재발 방지를 위해 ▲API 관리 플랫폼의 오류 데이터로 인한 장애 차단, ▲메타데이터 글로벌 전파 시 보호 장치 강화, ▲보다 정교한 테스트 및 모니터링 체계 마련, ▲시스템 오류 처리 및 비정상 데이터에 대한 전방위 테스트 체계 강화 등의 조치를 취하고 있다고 밝혔다.

데이터 솔루션 기업 코크로치랩스(Cockroach Labs)의 CEO이자 공동 설립자인 스펜서 킴벌은 “복원력은 단순히 추가하는 기능이 아니라 설계 차원의 약속”이라며 “최적의 상태가 아닌 악조건에서 얼마나 잘 작동하는지가 진정한 기준이다. 시스템이 실패를 흡수하지 못하고 고객까지 피해를 입힌다면, 2025년 AI 시대에는 운영 준비가 된 시스템이라 할 수 없다”라고 말했다.

인터넷 인프라의 취약한 연결 고리 드러나

이번 장애는 구글 클라우드 내부 인프라에서 시작됐지만, 전 세계 주요 플랫폼에 영향을 미치며 하이퍼스케일러 생태계의 구조적 취약성을 부각시켰다.

컨설팅 기업 그레이하운드리서치(Greyhound Research)의 수석 애널리스트이자 CEO인 산치트 비르 고기아는 “구글 클라우드의 IAM 내부 오류가 클라우드플레어, 스포티파이, 스냅챗, 디스코드 등 주요 플랫폼에도 도미노처럼 영향을 미쳤다”라며 “이는 하드웨어 문제가 아니라 제어 평면의 의존성이 주요 관리 기능을 마비시킨 결과”라고 지적했다.

클라우드플레어는 자사 블로그를 통해 이번 장애로 워커 KV, WARP, 액세스, 게이트웨이, 이미지, 스트림, 워커 AI, 턴스타일, 챌린지, 오토RAG(AutoRAG), 자라즈(Zaraz), 대시보드 일부 등 핵심 서비스가 영향을 받았다고 설명했다. 총 2시간 28분 동안 장애가 발생했고, 해당 서비스를 이용하는 전 세계 고객이 영향을 받았다. 클라우드플레어는 “이들 서비스 중 일부는 외부 클라우드 벤더의 인프라를 기반으로 하고 있으며, 이번 장애는 해당 벤더의 장애로 인해 직접 영향을 받았다”고 밝혔다.

인텔리전스 플랫폼 기업 테크인사이트(TechInsights) 애널리스트 마니시 라와트는 “이번 사건은 오늘날 인터넷 인프라가 얼마나 상호 의존적인지를 보여준다”FK며 “클라우드 벤더들이 기술적으로는 독립적인 것처럼 보이지만, 라우팅 프로토콜, DNS, 엣지 딜리버리 시스템 등 핵심 구성 요소를 공유하면서 시스템 전체에 리스크가 확산될 수 있다”라고 분석했다. 그는 “클라우드 이중화가 존재하더라도, 핵심 인터넷 프로토콜에 오류가 발생하면 전체 시스템의 취약성이 드러날 수 있다”라고 덧붙였다.

서비스 장애 모니터링 플랫폼 다운디텍터(Downdetector)는 같은 시간대 아마존웹서비스(AWS)와 마이크로소프트 애저(Microsoft Azure)에서 사용자 불만이 증가했다고 전했다. 그러나 양사의 공식 서비스 상태 페이지에는 어떠한 장애도 기록되지 않았다.

AWS는 파운드리 산하 언론사 네트워크월드(Network World)의 문의에 대해 “AWS는 이번에 어떠한 장애도 겪지 않았으며, 현재도 정상 운영 중”이라며 “AWS 서비스 상태에 대한 정확한 정보는 AWS 헬스 대시보드에서 확인할 수 있다”라고 밝혔다.

고기아는 “초기에는 멀티 클라우드 장애처럼 보였지만, 실제로는 인터넷 전반의 혼선과 CDN 계층의 연쇄 반응이 원인이었다”라며 “현대 클라우드 복원력은 단순한 인프라 가동률을 넘어, 오케스트레이션 시스템의 구조적 안정성에 달려 있다”라고 강조했다.

한편, 최근 IBM 클라우드도 2주간 세 차례의 장애를 겪은 바 있다.

기업은 ‘장애를 전제로 한 설계’ 필수적으로 고려해야

클라우드 장애는 인프라에 크게 의존하는 기업에 치명적인 영향을 줄 수 있다. 특히 멀티 클라우드나 엣지 계층의 이중화가 부족한 경우, 수익 손실, 브랜드 신뢰 하락, 운영 차질, 데이터 무결성 훼손 등 심각한 결과로 이어진다. 핀테크, 헬스케어, 이커머스와 같이 실시간성이 중요한 산업에서는 그 피해가 즉각적이고 치명적이다. 이에 따라, 기업은 시스템 복원력을 시급히 강화할 필요가 있다.

테크인사이트의 라와트는 “진정한 디지털 복원력을 갖추기 위해서는 단일 클라우드나 동일 벤더 기반의 장애 대응 전략에서 벗어나야 한다”라며 “멀티 클라우드, 하이브리드 클라우드, 분산형 서비스 모델 도입이 필요하다”고 강조했다. 그는 핵심 워크로드를 여러 클라우드에 분산 배치하고, 지리적으로 분산된 장애 대응 체계를 구축하며, DNS, 인증, 모니터링에는 독립적인 서드파티 서비스를 활용하는 것이 주요 전략이라고 설명했다.

아울러, 기업은 실환경 수준의 장애 상황을 검증할 수 있도록 카오스 엔지니어링(chaos engineering)을 검토하고, 복원력을 점검할 수 있는 시뮬레이션 훈련을 주기적으로 시행하는 방안을 고려할 수 있다. 중앙 집중형 클라우드에 대한 의존을 줄이기 위한 대안으로 엣지 컴퓨팅이나 로컬 캐싱 기술의 도입도 하나의 방법이 될 수 있다.
dl-ciokorea@foundryco.com


Read More from This Article: 구글 클라우드, 7시간 넘는 전 세계 장애로 50개 이상 서비스 중단···기업에게 주는 시사점은?
Source: News

Category: NewsJune 16, 2025
Tags: art

Post navigation

PreviousPrevious post:Claves para no ser víctima de los altos costes de la nubeNextNext post:인터뷰 | “방화벽 그 이상, 변화 빠르게 담아내는 설계가 중요” 최지희 시스코코리아 대표가 말하는 AI 시대 보안

Related posts

The augmented IT team: How AI is reshaping IT roles and skills for the future
June 16, 2025
4 levers every IT leader should pull to do more with less
June 16, 2025
How CIOs are getting data right for AI
June 16, 2025
6 ways tech partners can jumpstart innovation
June 16, 2025
Liderar en la era de los algoritmos: un desafío para el CIO actual
June 16, 2025
맞춤형 AI 모델로 공항 이용 경험 개선한 워싱턴 메트로폴리탄 공항청
June 16, 2025
Recent Posts
  • The augmented IT team: How AI is reshaping IT roles and skills for the future
  • 4 levers every IT leader should pull to do more with less
  • How CIOs are getting data right for AI
  • 6 ways tech partners can jumpstart innovation
  • Liderar en la era de los algoritmos: un desafío para el CIO actual
Recent Comments
    Archives
    • June 2025
    • May 2025
    • April 2025
    • March 2025
    • February 2025
    • January 2025
    • December 2024
    • November 2024
    • October 2024
    • September 2024
    • August 2024
    • July 2024
    • June 2024
    • May 2024
    • April 2024
    • March 2024
    • February 2024
    • January 2024
    • December 2023
    • November 2023
    • October 2023
    • September 2023
    • August 2023
    • July 2023
    • June 2023
    • May 2023
    • April 2023
    • March 2023
    • February 2023
    • January 2023
    • December 2022
    • November 2022
    • October 2022
    • September 2022
    • August 2022
    • July 2022
    • June 2022
    • May 2022
    • April 2022
    • March 2022
    • February 2022
    • January 2022
    • December 2021
    • November 2021
    • October 2021
    • September 2021
    • August 2021
    • July 2021
    • June 2021
    • May 2021
    • April 2021
    • March 2021
    • February 2021
    • January 2021
    • December 2020
    • November 2020
    • October 2020
    • September 2020
    • August 2020
    • July 2020
    • June 2020
    • May 2020
    • April 2020
    • January 2020
    • December 2019
    • November 2019
    • October 2019
    • September 2019
    • August 2019
    • July 2019
    • June 2019
    • May 2019
    • April 2019
    • March 2019
    • February 2019
    • January 2019
    • December 2018
    • November 2018
    • October 2018
    • September 2018
    • August 2018
    • July 2018
    • June 2018
    • May 2018
    • April 2018
    • March 2018
    • February 2018
    • January 2018
    • December 2017
    • November 2017
    • October 2017
    • September 2017
    • August 2017
    • July 2017
    • June 2017
    • May 2017
    • April 2017
    • March 2017
    • February 2017
    • January 2017
    Categories
    • News
    Meta
    • Log in
    • Entries feed
    • Comments feed
    • WordPress.org
    Tiatra LLC.

    Tiatra, LLC, based in the Washington, DC metropolitan area, proudly serves federal government agencies, organizations that work with the government and other commercial businesses and organizations. Tiatra specializes in a broad range of information technology (IT) development and management services incorporating solid engineering, attention to client needs, and meeting or exceeding any security parameters required. Our small yet innovative company is structured with a full complement of the necessary technical experts, working with hands-on management, to provide a high level of service and competitive pricing for your systems and engineering requirements.

    Find us on:

    FacebookTwitterLinkedin

    Submitclear

    Tiatra, LLC
    Copyright 2016. All rights reserved.