AI 수요 증가로 인한 고성능 컴퓨팅 요구와 GPU 부족 현상 사이에서 클라우드 기업은 성능 향상과 비용 절감을 위해 특정 워크로드에 맞는 맞춤형 반도체를 설계하고 있다.
마이크로소프트(Microsoft)는 최근 개최한 ‘이그나이트 2024’ 컨퍼런스에서 자사 클라우드 컴퓨팅 카탈로그에 2가지 새로운 대여용 칩을 추가했다고 밝혔다. 또한 AWS가 오는 12월 열릴 행사에서 맞춤형 칩 제품을 혁신할지 여부에도 관심이 집중되고 있다.
AI 모델 학습 및 실행과 같은 일부 컴퓨팅 작업은 CPU 대신 GPU에서 실행해 속도를 높일 수 있다. 하지만 모든 작업이 그렇지는 않다. 따라서 클라우드 서비스 제공업체는 엔비디아(NVIDIA)와 AMD의 GPU로 데이터센터를 채우는 것 외에도 특정 작업의 성능을 향상시키기 위한 새로운 반도체를 개발하고 있다.
IDC의 부사장인 마리오 모랄레스는 “GPU가 AI와 머신러닝의 모델링, 시뮬레이션, 학습, 추론과 같은 고성능 워크로드에 혁신을 가져왔지만, 전력 소비가 많고 추가 냉각이 필요하다”라고 설명했다.
게다가 GPU는 현재 공급이 부족한 상황이다. 엔비디아, AMD, 인텔(Intel) 등은 새로운 프로세서 출시 계획을 발표하거나 생산량을 늘리기 위해 노력하고 있다. 지난 10월 모건스탠리(Morgan Stanley) 분석가들은 엔비디아의 최신 블랙웰 GPU의 향후 12개월 분 예약이 완료됐다고 언급했다.
모랄레스에 따르면 최근 기술 발전으로 IT 구매자와 서비스 제공업체는 맞춤형 가속기를 대안으로 삼고 있다. 그는 “이런 가속기는 우수한 가격 대비 성능과 가격 효율성으로 더 나은 투자 수익을 제공하기 때문에 클라우드 인프라에서 점점 더 중요해지고 있다”라고 전했다.
클라우드 기업들은 이미 수년 전에 AI 워크로드용 맞춤형 칩을 도입했지만, 마이크로소프트는 이런 움직임에 다소 늦게 합류했다. AWS는 트레이니움(Trainium)과 인퍼렌시아(Inferentia)를, 구글은 텐서 프로세싱 유닛(TPU)을 선보였다. 마이크로소프트는 지난해 이그나이트 행사에서야 내부 AI 워크로드를 처리하고 데이터센터의 에너지 효율성을 높이기 위한 첫 맞춤형 칩인 마이아(Maia)와 코발트(Cobalt)를 공개했다.
DPU로 AI 데이터플로우 속도 향상
올해 행사에서 마이크로소프트는 데이터 처리를 가속화하는 애저 부스트 DPU와 보안을 강화하는 애저 통합 HSM 모듈 등 2가지 새로운 칩을 선보였다.
애저 부스트 DPU는 애저 인프라에 특화된 하드웨어-소프트웨어 통합 설계로, 마이크로소프트가 개발한 경량 데이터플로우 운영체제를 실행한다. 이를 통해 기존 구현 방식보다 높은 성능, 낮은 전력 소비, 향상된 효율성을 제공한다고 마이크로소프트는 밝혔다.
마이크로소프트는 또한 AI 워크로드를 실행하는 서버를 지원하기 위해 새로운 버전의 수랭식 사이드킥 랙과, 메타(Meta)와 공동 설계한 새로운 분산형 전력 랙도 도입하고 있다. 이를 통해 각 서버 랙에 35% 더 많은 AI 가속기를 장착할 수 있다고 밝혔다.
마이크로소프트는 블로그 게시물을 통해 “향후 DPU 장착 서버는 기존 서버의 3분의 1 전력과 4배 높은 성능으로 클라우드 스토리지 워크로드를 실행할 것으로 예상된다”라고 설명했다.
다만 포레스터(Forrester)의 수석 분석가 알빈 응우옌은 마이크로소프트가 DPU 분야에서는 후발주자라고 평가했다. 그는 마이크로소프트의 애저 부스트 DPU를 구글과 인텔이 공동 개발한 E2000 IPU와 비교했다. AWS도 비슷하게 DPU 관련 작업을 위한 니트로 시스템을 제공하고 있다. 엔비디아 블루필드와 AMD 펜산도(Pensando)를 사용하는 클라우드 업체도 있다.
보안용 맞춤형 프로세서
맞춤형 칩이 더 나은 성능을 제공하는 또 다른 분야는 보안이다.
마이크로소프트는 새로운 애저 통합 HSM 모듈이 성능을 저하시키지 않으면서도 암호화 및 서명 키를 하드웨어 경계 내에서 유지할 수 있게 해준다고 밝혔다.
응우옌은 이 칩이 매우 특정한 기능을 수행한다면서, 이전에는 하드웨어와 소프트웨어를 조합해서 처리해야 했던 작업이라고 설명했다. 기존 방식은 보안 공격에 더 취약했을 뿐만 아니라, 성능도 크게 저하되어 지연 시간이 늘어나고 시스템 확장이 어려웠다고 그는 분석했다.
구현 방식은 다르지만 AWS나 구글 등 다른 클라우드 업체도 AWS 니트로와 구글 타이탄 형태로 보안 기반 칩을 제공하고 있다. 응우옌은 “니트로는 베어 메탈 모드에서 메인 시스템 CPU가 펌웨어를 업데이트할 수 없도록 하는 중요한 보안 기능을 제공하고, 타이탄은 시스템의 건전성을 검증하고 중요한 보안 결정을 내릴 수 있는 기계의 강력한 신원을 확립하는 하드웨어 기반 신뢰 루트를 제공한다”라고 설명했다.
분석가들은 클라우드 기업이 다른 워크로드를 처리하거나 더 높은 효율성을 위해 맞춤형 칩의 도입을 가속화할 것으로 예상했다. 옴디아(Omdia)의 수석 분석가 알렉산더 해로웰은 “맞춤형 칩 제작 역량을 확보하고 나면, 현재 어떤 분야에서 외부 공급업체에게 가장 많은 비용을 지불하고 있는지, 또 어떤 시장이 가장 빠르게 성장하는지 파악해서 그 분야에 맞춤형 칩을 적용하는 것이 자연스러운 전략”이라고 설명했다.
Read More from This Article: ‘계속되는 GPU 공급 부족’… 클라우드 기업은 맞춤형 프로세서로 전환 중
Source: News