엔비디아 CEO인 젠슨 황의 주장대로 범용 컴퓨팅 시대가 저물고 있다면, 지금은 200여 년 전 핵심 동력원이 마력에서 증기로 전환되던 시기에 버금가는 근본적인 변화가 이뤄지고 있다고 볼 수 있다.
전환의 중심에는 AI 확산과 맞물려 새롭게 재구성되고 있는 데이터 인프라 전반이 자리하고 있다. 전례 없는 수준의 연산 성능을 뒷받침하기 위해 데이터 저장과 접근 방식에서도 속도와 신뢰성, 확장성이 동시에 요구되고 있다.
AI는 지금까지 볼 수 없었던 수준의 데이터 집약적 워크로드를 만들어내며 기업 인프라의 구조 자체를 빠르게 바꾸고 있다. 전 세계 데이터센터 용량 확장에 투입되는 막대한 투자 규모가 이를 보여준다. 최근 잇따른 발표 가운데 메타의 6,000억 달러 투자 계획도 그중 하나다. 지난해 4월 맥킨지는 “연산 수요 증가 속도를 따라잡기 위해 필요한 비용이 7조 달러에 달할 것”이라고 진단한 바 있다. AI 확산의 흐름이 유지된다면 이 추산치는 더 커질 가능성도 있다.
이 같은 흐름은 데이터 스토리지에도 근본적인 변화를 요구하고 있다. 기존 스토리지는 데이터베이스나 가상화처럼 예측 가능하고 순차적인 워크로드를 전제로 설계됐다. 그러나 AI 환경에서는 수천 개의 GPU 스레드가 병렬 및 무작위, 고대역폭 접근을 동시에 요구하면서 기존 모델을 뒤흔들고 있다.
이로 인해 발생하는 성능 문제는 인프라 전반에 연쇄적으로 확산된다. 스토리지가 이를 감당하지 못하면 GPU는 데이터를 기다리며 유휴 상태에 놓이고, 학습 주기는 지연되며, 전체 비용은 급격히 증가한다. 충분한 데이터를 공급받지 못한 GPU가 한 시간이라도 지연되면 ROI를 확보하는 시기도 늦춰진다. 학습 자체가 투자이기 때문에, 중단되거나 비효율적인 학습 주기는 가치 실현까지 걸리는 시간을 늘린다. 아울러 데이터가 손상되거나 유실되면 모델 전체를 다시 학습해야 하는 경우도 많아, 예상치 못한 막대한 비용이 발생할 수도 있다.
이 문제의 영향은 학습 단계에만 국한되지 않는다. AI에서 실제 수익을 창출하는 단계는 추론이며, 느리거나 불안정한 데이터 파이프라인은 AI 애플리케이션이 창출할 수 있는 매출과 사업 성과를 직접적으로 떨어뜨린다. 이에 대응해 기존 스토리지 벤더는 아키텍처를 AI 수요에 맞게 개조하려 하고 있지만, 상당수는 여전히 성능과 확장성 측면에서 한계를 벗어나지 못하고 있다.
결국 변화는 불가피하다. 출발점은 AI가 목적에 맞게 설계된, 본질적으로 고성능을 전제로 한 스토리지 시스템을 필요로 한다는 인식이다.
신뢰의 기본 요소
이 같은 성능 압박은 ‘신뢰’라는 더 근본적인 문제를 드러낸다. 대규모 AI 모델은 학습 데이터에 중단 없이 접근할 수 있다는 전제를 바탕으로 한다. 메타데이터 서버 장애나 데이터 손상 등 어떤 형태로라도 중단이 나타나면 생산성은 크게 떨어지고 결과의 신뢰성이 훼손될 수 있다.
이 맥락에서 신뢰성은 하나의 지표로만 설명되지 않는다. 여기엔 내구성, 가용성, 복구 가능성도 포함된다. 단순한 기술적 안전장치의 문제가 아니라, 시스템을 중단 없이 운영하고 데이터 무결성을 지켜낼 수 있는지가 곧 AI 투자를 실제 성과로 이어지게 하는 핵심 요소이기 때문이다.
문제는 여전히 많은 시스템이 여러 개의 물리적 디스크를 논리적으로 하나로 묶는 로컬 RAID(Redundant Array of Independent Disks)나 고가용성(HA) 페어 아키텍처에 의존하고 있다는 점이다. 이런 구조는 소규모 장애에는 대응할 수 있지만, AI 환경처럼 수십, 수백 대 노드가 동시에 동작하는 상황에서는 한계를 드러낸다. 반면 최신 설계는 다중 단계 소거 코딩(MLEC)과 비공유(shared-nothing) 아키텍처를 활용해 클러스터 전체 차원의 복원력을 확보한다. 이를 통해 여러 구성 요소에서 동시에 장애가 발생하더라도 가동 시간을 안정적으로 유지할 수 있다.
기존 시스템 문제로 인한 파급 효과는 상당할 수 있다. 가트너는 “2026년까지 AI에 적합한 데이터가 뒷받침되지 않는 AI 프로젝트의 60%를 조직이 포기하게 될 것”이라고 경고했다. 실제로 데이터 품질 저하는 기업당 연간 1,290만~1,500만 달러의 손실을 발생시키고 있으며, 데이터 파이프라인 장애로 인한 인사이트 손실과 서비스 수준 계약(SLA) 미준수 비용은 시간당 약 30만 달러에 이르고 있다.
AI 속도에 맞는 스토리지
AI 시스템이 요구하는 수준의 신뢰성을 확보하려면 기술적·운영적 아키텍처 전반을 다시 설계해야 한다. 예를 들어 복원력은 애플리케이션 변화에 따라 기존 스토리지 제품에 사후적으로 덧붙이는 요소가 아니라, 처음부터 구조 안에 내재돼야 한다.
기술 측면에서는 다중 단계 소거 코딩과 같은 현대적인 분산 데이터 보호 방식이 핵심으로 떠오르고 있다. 이는 전통적인 RAID의 제한적인 장애 대응 범위를 넘어, 여러 노드에 걸친 보호를 제공함으로써 다수의 구성 요소가 동시에 장애를 일으켜도 데이터 무결성을 유지할 수 있도록 한다.
동시에 플래시와 디스크를 결합한 하이브리드 아키텍처는 비용 효율성을 높이는 데 기여한다. 고성능이 요구되는 데이터는 플래시에 두고, 상대적으로 중요도가 낮은 정보는 비용이 낮은 저장 매체로 계층화하는 방식이다. 여기에 모듈형 비공유 구조를 적용하면 단일 장애 지점을 제거할 수 있고, 전용 하드웨어 없이 표준 서버 노드를 추가하는 것만으로 성능 확장이 가능해진다.
운영 측면에서도 충족해야 할 요구 사항이 있다. 예를 들어 자동화된 데이터 무결성 검사는 데이터 손상이 AI 파이프라인으로 유입되기 전에 이를 감지하고 격리할 수 있다. 또한 정기적인 복구 훈련은 AI 운영 환경이 요구하는 촉박한 시간 내에 복원 절차가 실제로 작동하는지를 검증하는 역할을 한다. 이런 기술적·운영적 요소를 거버넌스와 규제 준수 체계와 정렬하면 기술적 위험과 규제 리스크를 동시에 줄일 수 있다.
분명한 점은 이러한 역량이 더 이상 선택 사항이 아니라는 것이다. 이제는 AI 인프라가 설계되는 방식의 핵심 요소가 됐다. 앞으로 AI 워크로드와 데이터셋은 계속 확장할 수밖에 없으며, 이에 따라 스토리지 아키텍처 역시 전체 교체 없이도 용량과 성능을 확장할 수 있도록 모듈형이면서 벤더 중립적인 구조로 진화해야 한다.
dl-ciokorea@foundryco.com
Read More from This Article: 칼럼 | 범용 컴퓨팅 이후의 시대, AI가 스토리지를 재편한다
Source: News

