클라우드 기반 데이터웨어하우스 기업 스노우플레이크가 생성형 AI 애플리케이션을 운영하는 기업의 추론 워크로드 비용을 절감하기 위해 설계된 독점 기술인 스위프트KV의 성능 수준을 공개했다. 이는 지난해 12월 오픈소스로 공개됐다.
스노우플레이크는 생성형 AI 애플리케이션의 추론 비용이 여전히 높아 기업이 애플리케이션을 확장하거나 새로운 사용 사례에 생성형 AI를 도입하는 데 걸림돌이 되고 있다고 설명했다.
스위프트KV, “KV 캐시 압축 능가”
스노우플레이크의 AI 연구팀은 스위프트KV가 LLM 추론 중 생성되는 키-값(KV) 쌍을 저장하는 데 필요한 메모리를 줄이는 방식인 KV 캐시 압축의 성능을 능가할 수 있다고 설명했다.
메모리 절감은 프루닝, 양자화, 적응형 압축과 같은 방법을 통해 이전에 계산된 데이터를 저장하는 방식으로 작동한다. 이는 최적화된 LLM이 더 적은 메모리를 사용하면서도 더 긴 컨텍스트를 처리하고 더 빠르게 출력을 생성할 수 있게 한다.
스노우플레이크는 대부분의 워크로드가 출력 토큰보다 입력 토큰을 더 많이 사용하기 때문에, 입력 토큰 처리 비용에 영향을 끼치지 않는 KV 캐시 압축만으로는 추론 워크로드 비용을 의미 있게 줄일 수 없다고 주장했다. 스위프트KV가 모델 재배선(rewiring) 및 지식 보존 자체 증류(knowledge-preserving self-distillation) 같은 기술을 결합해 프롬프트 처리(입력 토큰) 중 추론 계산을 줄일 수 있다고 설명했다.
스노우플레이크에 따르면 스위프트KV는 이전 트랜스포머 계층의 숨겨진 상태를 재사용해 후속 계층의 KV 캐시를 생성한다. AI 연구팀은 스위프트KV가 프리필 단계에서 중복 계산을 제거해 계산 오버헤드를 50% 이상 줄일 수 있다고 설명했다.
연구팀은 또한 스위프트KV가 LLM 정확도를 유지하기 위해 자체 증류를 사용해 재배선하거나 최적화된 모델이 원래 LLM의 동작을 복제하도록 보장한다고 밝혔다.
스위프트KV 개념은 새롭지 않다
옴디아 수석 분석가 브래들리 심민은 스위프트KV가 프롬프트 캐싱, 플래시 어텐션, 모델 프루닝, 양자화 등의 방법처럼 모델 추론 비용을 최적화하는 영리한 수단이라고 언급했다. 다만 개념 자체는 새롭지 않다고 말했다.
심민은 “이 개념은 새로운 것이 아니며 스노우플레이크가 처음도 아니다. 예를 들어 SAP는 2024년 초에 모델 플러그인인 핀치(Finch)를 통해 이 개념을 도입했다”라고 말했다.
스노우플레이크는 스위프트KV에 최적화된 LLM이 정확도 손실을 최소화한다고 언급했지만, 심민은 구현의 복잡성, 성능 저하 수준, 기본 추론 아키텍처와의 호환성 측면에서 상충되는 부분이 있을 수 있다고 지적했다.
그는 “양자화 같은 방법이 인기 있는 이유는 그만큼 상충되는 부분이 적기 때문이다. 만약 고객들이 스위프트KV도 양자화처럼 가치가 있다고 판단한다면, 프로젝트의 필요에 따라 다른 최적화 기법들과 함께 활용할 것으로 예상된다”라고 말했다.
스위프트KV 사용 방법
기업은 스노우플레이크를 통해 스위프트KV에 접근하거나 허깅페이스(Hugging Face)의 모델 체크포인트 또는 vLLM에서 최적화된 추론을 실행할 수 있다. 허깅페이스의 모델 체크포인트란 학습 중 모델의 가중치를 저장한 세트다. vLLM은 LLM 추론과 서빙을 위한 라이브러리다.
특히 스노우플레이크 고객 기업은 코텍스 AI 내에서 스위프트KV에 최적화된 모델인 라마(Llama) 3.3 70B와 라마 3.1 405B를 활용할 수 있다. 스노우플레이크는 스위프트KV에 최적화되지 않은 라마 모델과 비교했을 때 추론 비용이 최대 75% 감소했다고 밝혔다.
스노우플레이크는 지난해 12월에 모델 가중치와 vLLM 코드를 오픈소스로 공개했다. 하지만 지금까지 코텍스 AI에서 스위프트KV 최적화 모델을 출시하거나 스위프트KV를 개발하는 데 사용된 학습 코드를 공개하지는 않았다.
현재 스노우플레이크는 엔지니어가 자체 스위프트KV 모델을 구축할 수 있게 해주는 아크틱트레이닝(ArcticTraining)이라는 학습 라이브러리도 오픈소스로 공개하고 있다.
[email protected]
Read More from This Article: 스노우플레이크 “오픈소스 스위프트KV, LLM 추론 비용 크게 절감”
Source: News