Skip to content
Tiatra, LLCTiatra, LLC
Tiatra, LLC
Information Technology Solutions for Washington, DC Government Agencies
  • Home
  • About Us
  • Services
    • IT Engineering and Support
    • Software Development
    • Information Assurance and Testing
    • Project and Program Management
  • Clients & Partners
  • Careers
  • News
  • Contact
 
  • Home
  • About Us
  • Services
    • IT Engineering and Support
    • Software Development
    • Information Assurance and Testing
    • Project and Program Management
  • Clients & Partners
  • Careers
  • News
  • Contact

“AI 혁신의 동력” 레드햇이 제안하는 vLLM 추론 비용 최적화 전략

레드햇은 이러한 흐름 속에서 AI 추론 인프라 관리가 기업의 핵심 과제가 될 것이라고 전망했다.

9월 3일 CIO코리아와 IT월드가 공동 주최한 AI&데이터 서밋에서 발표자로 나선 한국레드햇 신용환 시니어 솔루션 아키텍트는 vLLM(Virtual Large Language Model)을 중심으로 한 AI 추론 최적화 전략을 소개했다. 그는 “2022년 이전까지 AI 개발 기업들은 주로 모델의 정확도와 성능 향상에 집중했지만, 이후에는 AI 운영을 얼마나 효율적으로 관리할지가 주요 과제로 떠올랐다”라고 설명했다.

AI 추론계의 리눅스 ‘vLLM’이란?

vLLM은 대규모 언어모델(LLM)의 추론을 더 빠르고 효율적으로 실행하기 위해 UC버클리 연구팀이 2022년 말 개발해 오픈소스로 공개한 라이브러리이자 런타임이다. 이후 학계와 업계를 아우르는 기여를 통해 빠르게 확산되고 있다.

vLLM이 주목받는 배경에는 AI 모델 배포 방식의 변화가 있다. 보통 기업 내 AI 모델 개발은 데이터 수집과 준비, 모델 학습, 추론을 통한 서비스 배포, 모니터링이라는 4단계로 이어진다. 이 가운데 실제 서비스와 연결되는 단계는 추론이다. 사용자가 질문을 하거나 요청을 보내면 즉시 실행돼야 하기 때문에 가장 많은 인프라 자원과 비용이 소모된다. 이 때문에 학습보다 추론 시장이 훨씬 빠른 속도로 성장하고 있다.

신용환 아키텍트는 “학습은 방대한 자원과 시간이 요구돼 주기적으로만 이뤄지지만, 추론은 사용자 요청이 있을 때마다 즉각 실행돼야 한다. 이 차이로 인해 기업이 사용하는 AI 자원의 상당 부분은 추론 단계에서 발생한다”라며 “추론 시장이 확대되면서 GPU 사용량을 관리하고 비용을 최적화하기 위해 vLLM을 도입하는 기업이 늘고 있다”라고 설명했다. 메타, 딥시크 등 글로벌 기업도 vLLM을 활용한다고 밝혔다.

신용환 아키텍트는 vLLM이 추론 효율성을 높이는 핵심 기술로 자원 최적화와 성능 개선을 꼽았다. 세부적으로 살펴보면 CPU에는 직렬 연산을, GPU에는 대규모 병렬 연산을 각각 맡겨 두 프로세서의 장점을 극대화한다. 또한 프리필 단계에서는 입력 데이터를 빠르게 전처리하고, 반복 계산이 필요한 부분은 캐싱을 통해 재사용하며, 디코딩 과정은 경량화 알고리즘으로 최적화해 전체 추론 속도를 크게 끌어올린다. 이러한 접근은 단순한 연산 효율 향상을 넘어 대규모 모델을 다양한 환경에서 안정적으로 운영할 수 있는 토대를 제공한다.

특정 플랫폼이나 가속기에 종속되지 않고 다양한 환경에서 활용할 수 있다는 점도 vLLM의 핵심 장점이다. 신용환 아키텍트는 상용 추론 런타임과 비교해도 성능 저하가 크지 않으며, vLLM이 ‘AI 추론계의 리눅스’라 불릴 만큼 업계 표준으로 자리매김하고 있다고 강조했다.

글로벌 기업 사례로 본 vLLM 효율성

레드햇은 이러한 흐름 속에서 추론 기능 강화를 위한 투자를 이어가고 있다. 2025년 1월에는 vLLM의 핵심 기술 기여자들이 모여 만든 뉴럴 매직(Neural Magic)을 인수했다. 인수 당시 레드햇 맷 힉스 CEO는 “뉴럴 매직의 기술력을 레드햇에 통합해 워크로드 실행 환경부터 최적화, 학습 방식까지 고객 요구에 신속하게 대응하겠다”라고 밝혔다. 신용환 아키텍트는 “GPU만으로 AI를 해야 한다는 고정관념에서 벗어나, CPU 기반 추론 최적화라는 새로운 가능성을 제시한 것이 뉴럴 매직의 출발점”이라고 설명했다.

뉴럴 매직의 고객 사례를 보면 글로벌 기업이 vLLM을 통해 어떻게 추론 효율성을 높이고 있는지 알 수 있다. 한 대형 미디어 그룹은 생성형 AI 서비스를 사용자에게 배포하는 과정에서 H100과 MI300X 클러스터 환경에서 멀티모달 미스트랄(Mistral) 모델을 활용해야 했다. 신용환 아키텍트에 따르면, 이 기업은 뉴럴 매직의 vLLM 기반 엔터프라이즈 지원과 허깅페이스에 등록된 최적화 모델을 활용해 빠르게 가치를 실현했다.

또 다른 사례로 한 대형 리테일 그룹은 방대한 수요를 처리하기 위해 추론 성능 개선이 필요했다. 이 기업의 ML팀은 H100 시스템에서 매일 수백만 건의 분석 작업을 처리할 수 있는 고성능 런타임을 요구했고, 뉴럴 매직은 vLLM 엔터프라이즈 서비스와 LLM 압축 도구를 제공해 이를 지원했다. 그 결과 해당 기업은 모델 최적화 역량과 vLLM 전문성을 바탕으로 운영 효율성을 높일 수 있었다.

Redhat AI & Data Summit 2025 slide

Redhat Korea

추론 인프라 투자 강화하는 레드햇

레드햇은 vLLM 외에도 자체적으로 LLM 압축 도구인 LLM 컴프레서(Compressor)를 개발해 오픈소스 프로젝트로 공개했다. LLM 컴프레서는 vLLM 연계 프로젝트로, 대형 언어모델의 정밀도를 낮춰 모델 크기를 줄이는 기술이다. FP16을 INT8이나 INT4 같은 저정밀 연산으로 변환해 성능 저하 없이 메모리 사용량과 추론 비용을 줄일 수 있다. 쉽게 말해 모델을 경량화해 vLLM이 효율적으로 작동하도록 돕는 보조 기술이다.

vLLM과는 별도의 프로젝트지만 레드햇은 추론 효율화라는 같은 맥락에서 탄생한 LLM-D(Large Language Model-Distributed) 프로젝트도 지원하고 있다. 레드햇이 주도하고 구글, AMD, 엔비디아, 허깅페이스 등이 함께 개발 중인 LLM-D는 대규모 추론 환경에서 분산·병렬 처리 효율을 높여주는 오픈소스 기술이다. 특히 ‘인퍼런스 게이트웨이(Inference Gateway)’라는 구성 요소를 두어 캐시 사용 현황을 파악하고, 들어오는 요청을 여러 서버와 노드에 고르게 분산 처리한다. 이를 통해 기업은 LLM-D를 활용해 대규모 추론 작업을 안정적이고 효율적으로 수행할 수 있다.

레드햇은 엔터프라이즈 환경에서 손쉽게 활용할 수 있도록 레드햇 AI 인퍼런스 서버라는 제품을 올해 5월 출시했다. 이 제품은 리눅스와 쿠버네티스 등 기존 플랫폼 어디서든 구동 가능하며, 기업이 자체 데이터센터나 클라우드 환경에서 AI 추론을 보다 쉽게 배포·운영·관리할 수 있도록 지원한다.

신용환 아키텍트는 “레드햇은 더 이상 리눅스와 쿠버네티스만 제공하는 회사가 아니라, 기업이 AI를 효과적으로 활용할 수 있도록 지원하는 플랫폼 기업으로 발전하고 있다”며 “특히 오픈소스만으로는 풀기 어려운 과제에 대해 레드햇은 안정성과 전문적인 지원을 제공해 기업이 AI를 보다 안정적이고 효율적으로 운영할 수 있게 돕겠다”라고 강조했다.
jihyun.lee@foundryco.com



Read More from This Article:
“AI 혁신의 동력” 레드햇이 제안하는 vLLM 추론 비용 최적화 전략
Source: News

Category: NewsSeptember 15, 2025
Tags: art

Post navigation

PreviousPrevious post:칼럼 | AI 시대의 제품 관리, ‘지능형 전환’이 승부 가른다NextNext post:글로벌 기업 주도, 시작된 AI 자격증 경쟁···눈여겨볼 9가지

Related posts

「健康情報」はなぜ特別扱いなのか――個人情報保護法から見た医療データ
December 14, 2025
インド・フィンテックの2025年を振り返る
December 14, 2025
ソフトウェアサプライチェーンの透明化が問い直す企業の信頼――SBOM世界標準化の現在地と日本企業が講ずべき生存戦略
December 14, 2025
フェデレーション技術が拓く「集めないデータ活用」の新地平――企業ITが直面する分散型アーキテクチャへの転換点
December 14, 2025
オプトインからオプトアウトへ―次世代医療基盤法が変えた医療データのルール
December 13, 2025
AI ROI: How to measure the true value of AI
December 13, 2025
Recent Posts
  • 「健康情報」はなぜ特別扱いなのか――個人情報保護法から見た医療データ
  • インド・フィンテックの2025年を振り返る
  • ソフトウェアサプライチェーンの透明化が問い直す企業の信頼――SBOM世界標準化の現在地と日本企業が講ずべき生存戦略
  • フェデレーション技術が拓く「集めないデータ活用」の新地平――企業ITが直面する分散型アーキテクチャへの転換点
  • オプトインからオプトアウトへ―次世代医療基盤法が変えた医療データのルール
Recent Comments
    Archives
    • December 2025
    • November 2025
    • October 2025
    • September 2025
    • August 2025
    • July 2025
    • June 2025
    • May 2025
    • April 2025
    • March 2025
    • February 2025
    • January 2025
    • December 2024
    • November 2024
    • October 2024
    • September 2024
    • August 2024
    • July 2024
    • June 2024
    • May 2024
    • April 2024
    • March 2024
    • February 2024
    • January 2024
    • December 2023
    • November 2023
    • October 2023
    • September 2023
    • August 2023
    • July 2023
    • June 2023
    • May 2023
    • April 2023
    • March 2023
    • February 2023
    • January 2023
    • December 2022
    • November 2022
    • October 2022
    • September 2022
    • August 2022
    • July 2022
    • June 2022
    • May 2022
    • April 2022
    • March 2022
    • February 2022
    • January 2022
    • December 2021
    • November 2021
    • October 2021
    • September 2021
    • August 2021
    • July 2021
    • June 2021
    • May 2021
    • April 2021
    • March 2021
    • February 2021
    • January 2021
    • December 2020
    • November 2020
    • October 2020
    • September 2020
    • August 2020
    • July 2020
    • June 2020
    • May 2020
    • April 2020
    • January 2020
    • December 2019
    • November 2019
    • October 2019
    • September 2019
    • August 2019
    • July 2019
    • June 2019
    • May 2019
    • April 2019
    • March 2019
    • February 2019
    • January 2019
    • December 2018
    • November 2018
    • October 2018
    • September 2018
    • August 2018
    • July 2018
    • June 2018
    • May 2018
    • April 2018
    • March 2018
    • February 2018
    • January 2018
    • December 2017
    • November 2017
    • October 2017
    • September 2017
    • August 2017
    • July 2017
    • June 2017
    • May 2017
    • April 2017
    • March 2017
    • February 2017
    • January 2017
    Categories
    • News
    Meta
    • Log in
    • Entries feed
    • Comments feed
    • WordPress.org
    Tiatra LLC.

    Tiatra, LLC, based in the Washington, DC metropolitan area, proudly serves federal government agencies, organizations that work with the government and other commercial businesses and organizations. Tiatra specializes in a broad range of information technology (IT) development and management services incorporating solid engineering, attention to client needs, and meeting or exceeding any security parameters required. Our small yet innovative company is structured with a full complement of the necessary technical experts, working with hands-on management, to provide a high level of service and competitive pricing for your systems and engineering requirements.

    Find us on:

    FacebookTwitterLinkedin

    Submitclear

    Tiatra, LLC
    Copyright 2016. All rights reserved.