IT 운영 분야의 엔지니어, 관리자, 분석가들의 업무가 쉬워 보인다면, 그들의 업무를 제대로 알지 못하기 때문이다.
자동화, 가시성, 머신러닝과 같은 기술 덕분에 IT 운영이 개선됐다. 대규모 및 미션 크리티컬 워크로드를 더 많이 배포하고 관리하는 데 도움을 받고 있다. 그러나 예상 서비스 수준, 컴플라이언스 요구사항, 멀티클라우드 복잡성, 기하급수적으로 데이터 볼륨은 모두 비즈니스 요구사항과 IT 운영에 대한 부담을 더하고 있다.
IT 및 클라우드 운영에 생성형 AI를 활용하는 방법
2024 글로벌 워크포스 AI 보고서에 따르면, IT 인력의 85%는 AI의 업무 기여 가능성에 긍정적으로 답했다. 조사에 참여한 전문가들은 AI가 새로운 기술을 배우는 시간, 더 많은 업무를 처리하는 시간, 창의적인 업무를 수행하는 시간을 확보해준다고 밝혔다.
• 소프트웨어 개발자는 생성형 AI를 사용하여 코드를 생성하고, 문서를 작성하며, 앱 현대화를 간소화한다.
• 생성형 AI는 데이터 과학자가 최종 사용자 워크플로우를 이해하는 데 더 많은 시간을 할애하고 훈련 데이터의 데이터 편향을 줄이는 데 도움을 준다.
• CIO들은 고객 성공을 견인하고 공급망 예측을 개선하며, 제조 문제를 포착하기 위해 에이전틱 AI에 투자하고 있다.
그렇다면 생성형 AI가 IT 및 클라우드 운영 업무도 간소화할 수 있을까? SAP의 북미 공공 클라우드 부문 MD 및 SVP인 로리 로사노는 “클라우드 및 IT 운영에 생성형 AI를 통합하면 더 자원 효율적이고 잘 준비된 상태가 될 수 있다. 이를 통해 성과를 높이고, 유연성을 개선하며, 변화하는 환경에 더 잘 대응할 수 있다”라고 말했다.
다음은 생성형 AI를 사고 대응, 보안, 클라우드 인프라, 핀옵스(FinOps)에 적용하는 5가지 방법이다.
AI옵스 및 사고 대응 개선
필자는 이전에 AI옵스의 다양한 활용 방법에 대해 작성한 바 있다. 예를 들어, 애플리케이션 모니터링에서 머신러닝을 활용해 사이트 신뢰성 엔지니어(SRE)가 서비스 수준 목표 달성을 돕는 것, 중대 사고 해결 시간 단축 등이 가능하다. AI옵스는 또 알림 정보 중앙화, 텔레메트리 데이터 순서화, 잠재적 근본 원인 식별, 일반적인 복구 자동화 트리거링 등의 문제를 해결한다.
레드게이트(Redgate)의 애드버킷이자 엔지니어인 켈린 고만은 “생성형 AI가 사고 해결 및 로그 분석과 같은 작업을 자동화함으로써 IT 및 클라우드 운영을 크게 향상시키고 있다. 이는 예측 애널리틱스을 활용해 시스템 성능을 모니터링하고 문제가 발생하기 전에 잠재적 문제를 해결하며, 워크로드 최적화를 위한 데이터 기반 권장 사항을 제공하며, 대화형 도구를 통해 사용자 상호작용을 개선한다”라고 설명했다.
생성형 AI는 특히 사고의 원인을 추적하기 어려운 복잡한 환경의 상황에서 AI옵스의 기능을 확장한다. 엔지니어가 생성형 AI 프롬프트 기능을 활용함으로써 어려운 사고의 근본 원인 및 대응 시나리오를 탐색할 수 있게 된다.
제비아(Xebia)의 제품 및 플랫폼 엔지니어링 글로벌 헤드인 프릿팔 싱은 “생성형 AI는 인사이트 생성, 복잡한 시스템 데이터 요약, 사고 대응 및 해결을 위한 문서화 자동화를 통해 지원한다. 시스템 로그 해석과 운영 워크플로우에 대한 수동 작업을 줄임으로써 생성형 AI는 운영 팀이 데이터 기반 결정을 더 빠르게 내릴 수 있도록 돕고, AI 기반 자동화는 성능 조정과 이상 탐지를 처리한다”라고 말했다.
정확한 근본 원인 분석
대부분의 IT 서비스 관리 작업에 있어 사고 관리와 문제 관리는 따로 처리된다. 사고 관리의 주요 역할은 문제의 원인을 찾아 서비스를 복원하는 것이며, 문제 관리는 특히 여러 근본 원인이 있는 반복적인 문제에 대한 근본 원인 분석을 수행하는 것이다.
엘라스틱의 검색 AI 글로벌 매니징 디렉터 스티브 마이작은 “관측 가능성과 AI옵스를 결합하면 자동화된 탐지, 진단, 복구를 통해 애플리케이션 복원력을 강화하는 자체 복구 인프라가 가능해진다. 팀은 데이터를 더 잘 해석하고 신호를 파악하며 가시성을 확보하고 운영을 최적화할 수 있다”라고 설명했다.
그는 이어 “생성형 AI는 이를 한 단계 더 발전시켜 간단한 쿼리를 통해 직관적인 탐색과 깊은 통찰력을 제공한다. 예를 들어, 코드가 과도한 처리 능력을 소비할 경우 생성형 AI는 코드 프로파일링 데이터를 분석해 고부하 기능을 식별하고 효율성을 향상시키고 비용을 절감하기 위한 최적화 방법을 추천할 수 있다”라고 덧붙였다.
IT 운영은 오랫동안 복잡한 문제가 발생하는 애플리케이션 및 네트워크 레이어에 대해서도 성능 분석을 구현할 기회를 모색해 왔다.
인포시스 코발트(Infosys Cobalt)의 EVP 아난트 아드야는 “생성형 AI가 데이터 세트와 사고 알림 정보를 신속하게 분석함으로써 해결 시간을 단축할 수 있다. 또 IT 팀의 질문에 직접 답변함으로써 직접적인 지원을 제공할 수 있다”라며, ”AI 챗봇은 다양한 네트워크에서 자원과 솔루션을 통합하여 전문가들이 복잡한 사고를 해결하는 데 안내할 수 있다”라고 말했다.
즉 생성형 AI 도구를 관측 가능성, 사고 대응, 자산 관리 데이터에 훈련시키면, IT 운영을 위해 훈련된 AI 에이전트가 역사적 성능을 분석하고 복원력을 향상시키기 위한 구성 변경을 추천하는 새로운 시대가 열릴 수 있다.
보안 감사 및 위협 탐지 강화
보안 사고의 근본 원인을 찾고 해결하는 작업이 어려워지고 있다. 위협의 증가와 취약점을 수동으로 추적하기 어려운 방식으로 악용하는 공격자들 때문이다.
호스팅어드바이스닷컴(HostingAdvice.com)의 보안 및 기술 전문가 조 워니몬트는 “오늘날 클라우드 보안은 너무 많은 진입점과 위협으로 인해 마치 ‘모래주머니 치기’ 게임처럼 느껴진다. 인간 IT 전문가가 많은 조직에게도 마찬가지다”라고 말했다.
그는 이어 “하지만 생성형 AI가 게임의 규칙을 바꾼다. 트렌드와 과거 침투 사례를 기반으로 대응해야 할 위치를 예측하며 동시에 여러 진입점을 동시에 감시할 수 있기 때문이다”라고 전했다.
필자는 정보 보안 전문가들이 사용하는 AI 에이전트와 IT 운영을 지원하는 AI 에이전트가 별개로 등장한다고 전망한다. 각 에이전트는 문제와 최적화 기회를 탐지, 예측, 대응하는 특정 기능에 집중하게 된다.
테셀(Tessell)의 공동 설립자 바쿨 반티아는 “클라우드 보안 분야에서 생성형 AI는 위협 탐지, 이상 탐지, 사고 대응을 고도화한다. 사용자 행동과 장치 보안을 분석하며 클라우드 구성의 준수 여부를 지속적으로 감사함으로써 액세스 관리를 강화할 수 있다”라고 말했다.
IT 운영 측면의 또 다른 기회는 데이터 거버넌스 정책 준수 지원이다. 많은 조직이 데이터 보안 포지션 관리(DSPM) 플랫폼을 도입하고 AI 거버넌스 정책을 정의하고 있지만, IT 운영에 필요한 해법은 드물었다.
블랙와이어(Blackwire)의 조시 레이 CEO는 “클라우드에 저장된 방대한 양의 데이터를 고려할 때 데이터 보안과 프라이버시를 보장하는 것은 특히 중요하다. 생성형 AI는 데이터 거버넌스 정책을 강제 적용하고, 위협 탐지 및 대응을 개선하며, 준수 정책 강제 적용을 자동화하고, 지속적인 보안 개선을 제공할 수 있다”라고 말했다.
복잡한 환경에서 클라우드 운영 확장
사고 및 문제 관리는 반응적 특성을 지닌다. 하지만 생성형 AI는 데이터를 빠르게 분석하고 문제를 자율적으로 해결할 수 있다. 인간과 협업할 수도 있다. 또 다른 기회는 생성형 AI를 더 적극적인 작업에 활용하는 것으로, 표준 운영 절차의 구현 강도와 확장성을 개선할 수 있다.
닌자원(NinjaOne)의 데이터 및 AI 부문 SVP인 조엘 카루손은 “IT 운영용 생성형 AI는 현대 IT 환경의 복잡성과 규모에 대응하기 어려운 조직이 프로세스를 간소화하고 패치와 같은 반복 작업을 자동화함으로써 도움을 준다”라고 말했다.
생성형 AI는 복잡한 워크로드에 대한 클라우드 운영 확장 등 전략적 IT 기능에도 사용된다.
로직모니터(LogicMonitor)의 AI 담당 GM인 카지크 SJ는 “생성형 AI가 인프라 자동화, 수요 예측, 낭비 감소 등을 통해 IT 및 클라우드 운영을 개선할 수 있다. 단 감독 없이 사용되면 비용이 증가하게 된다. 운영 팀은 AI 워크로드를 실시간으로 추적하고, 불필요한 확장 방지 위해 자동화를 미세 조정하며, AI 인사이트를 활용해 비용을 최적화하는 방법을 배워야 한다. 진정한 가치는 AI가 모든 것을 주도하게 두는 것이 아니라, 이를 통제하여 클라우드 운영을 더 효율적이고 빠르며 비용 효율적으로 만드는 데 있다”라고 말했다.
필자는 또한 에이전트형 AI를 클라우드 아키텍트와 엔지니어의 파트너로 본다. 특히 퍼블릭 클라우드 및 인프라 제공업체가 새로운 기능과 혁신을 출시함에 따라, 클라우드 AI 에이전트는 인프라 확장 이상의 역할을 수행할 가능성이 크다. 복잡성이 증가하는 가운데 생성형 AI는 시나리오 기반 아키텍처 업그레이드 계획에 귀중한 파트너가 될 수 있다.
확장 가능한 핀옵스와 IT 전략 계획으로의 전환
핀옵스 분야에서도 유사한 변화가 일어나고 있다. 초기 AI 에이전트는 반응형으로 작동하며 클라우드 비용을 줄이기 위한 전술적 실천 방법을 제공한다. 안델라(Andela)의 AI 및 데이터 실무 책임자 티아고 미야오카는 다음과 같이 말했다.
“생성형 AI는 클라우드 비용 최적화를 자동화하고 사용되지 않는 리소스를 식별하며 워크로드를 동적으로 조정해 낭비를 줄임으로써 핀옵스를 혁신하고 있다. 핀옵스 엔지니어가 수동으로 수행해야 했던 작업, 예를 들어 미사용 인스턴스 추적 및 리소스 재할당 등의 작업들이 이제 AI 기반 시스템으로 간소화될 수 있다. 클라우드 환경을 지속적으로 모니터링하고 지능형 비용 절감 전략을 적용함으로써 생성형 AI는 조직이 성능을 유지하면서 비용을 최소화하는 데 도움을 준다.”
멀티클라우드 환경, 지리적으로 분산된 데이터센터, 에지 컴퓨팅 위치에서 운영되는 대규모 기업은 핀옵스 활동을 지원하기 위해 모든 비용 및 소비 데이터를 통합하고 표준화하기란 까다로운 과제다. 생성형 AI는 이미 데이터 통합 기능을 혁신하고 있으며, 핀옵스 사용 사례는 비용 및 탄소 배출량 절감의 중요한 기회를 제공한다.
나일(Nile)의 제품 관리, 전략 및 운영 담당 헤드인 카르티크 카난은 “오늘날의 클라우드옵스(CloudOps) 및 핀옵스(FinOps) 도구는 여러 데이터베이스에 저장된 방대한 사용량 데이터를 분석하고 API 및 스크립트를 통해 사용량과 비용에 대한 인사이트를 얻는다. 데이터 요약, 데이터 시각화, 텍스트 요약과 같은 생성형 AI 기능은 이러한 소프트웨어의 필요성을 줄이거나 제거할 수 있다. 운영 팀은 사용량과 비용에 대한 즉각적인 인사이트를 얻고 이를 기반으로 최적화 전략을 설계할 수 있다”라고 설명했다.
즉 생성형 AI는 IT 운영 업무를 간소화하는 새로운 기회를 제공할 것이 분명하다. 그러나 곧바로 만병통치약같은 에이전트 AI를 기대해서는 곤란하다. 인프라 및 운영 간소화의 각 굴곡마다 기업이 필요로 하는 새로운 기능이 등장할 것이며, 이는 운영 탄력성에 새로운 도전 과제를 제기하기 때문이다.
[email protected]
Read More from This Article: 칼럼 | 클라우드 및 IT 운영에 생성형 AI를 사용하면?··· 5가지 활용처
Source: News