고객지원 챗봇 노린 ‘AI 토큰 무임승차’ 확산…기업 AI 예산 흔든다

고객 서비스를 위해 AI 에이전트를 도입한 CIO에게 또 하나의 고민이 생겼다. 외부 사용자가 시스템을 교묘히 조작해 기업 비용으로 AI 연산을 수행하도록 만드는 문제다.

이러한 AI 토큰 탈취를 최소화하기 위해 시스템을 잠그는 방법이 없는 것은 아니다. 다만 대부분의 대응책은 단점이 있으며, 자칫하면 해당 시스템의 도입 명분 자체를 약화시킬 가능성도 있다.

이 같은 오남용은 본질적으로 프롬프트 인젝션 공격의 한 형태다. 기업의 AI 비용을 증가시킬 뿐 아니라 투자 대비 수익(ROI)의 가시성을 떨어뜨릴 수 있다. 더 나아가 공격자가 과도한 요청으로 종량제 기반의 고비용 서비스를 과부하 상태로 만들어 수익성을 훼손하는 ‘지갑 서비스 거부(denial of wallet)’ 공격에 기업이 노출될 수 있다.

인포테크 리서치 그룹(Info-Tech Research Group)의 기술 자문 저스틴 세인트모리스는 “이 문제는 빙산의 일각에 불과하다. 훨씬 더 큰 문제를 상징하는 신호일 수 있다”라며 “공격자는 ‘코드를 제공해 준다면, 다른 무엇까지 해줄 수 있는가’라고 생각할 수 있다”고 설명했다.

보안 AI 연합(CoSAI) 회원이자 ACM AI 보안(AISec) 프로그램 위원회 소속인 닉 케일은 비용 구조의 차이를 구체적으로 짚었다. 케일은 “‘내 주문은 어디에 있나? 영업시간은 어떻게 되나?’와 같은 일반적인 고객 응대는 200~300토큰 수준”이라며 “하지만 파이썬으로 연결 리스트를 뒤집어 달라는 요청은 2,000토큰 이상이 쉽게 발생한다. 세션당 비용이 약 10배로 뛰는 셈”이라고 분석했다.

이어 “시스템은 이를 또 하나의 고객 대화로 인식하기 때문에 비용 이상 징후 보고서에 잡히지 않는다”라며 “챗봇 트래픽의 5%만 복잡한 질의를 수행하는 무임승차 이용자라 해도, 분기 실적 검토에서 설명하기 어려운 수준의 예산 공백이 발생할 수 있다”고 전했다.

판단력의 문제

이 사안의 핵심에는 ‘판단력’이 있다. 문제는 챗봇에 이러한 판단력이 거의 없다는 점이다.

케일은 “인간은 맥락적 판단을 기본적으로 내재하고 있다”라며 “하지만 챗봇에는 ‘당신은 도움이 되는 고객 서비스 에이전트다’라는 식의 시스템 프롬프트가 설정돼 있을 뿐이다. 이는 강제 장치가 아니라 일종의 권고 문구에 가깝다. AI판 벨벳 로프와 같은 존재”라고 설명했다.

이어 “이 도구를 조금만 사용해 본 사람이라면 기본적인 대화 구조만으로도 시스템 프롬프트를 우회할 수 있다는 사실을 안다. 현재 기업에서 벌어지는 일이 바로 그것”이라며 “시스템은 세션을 인증할 뿐, 사용자의 의도는 검증하지 않는다”고 지적했다.

그레이하운드 리서치(Greyhound Research)의 수석 애널리스트 산치트 비르 고기아는 이 문제가 앞으로 더 확대될 것으로 내다봤다. 근본적인 책임은 기업에 있다고 진단했다.

고기아는 “기업이 목격하는 것은 챗봇 오남용이 아니라, 고객 서비스라는 이름으로 범용 추론 시스템을 배치한 데 따른 의도치 않은 결과”라며 “이 시스템은 대화형 인터페이스로 설계됐지만, 경제적으로는 개방형 연산 표면처럼 작동한다. 목적과 설계의 불일치가 문제의 출발점”이라고 분석했다.

또한 “모델이 발전한다고 해서 문제가 사라지지는 않을 것이다. 오히려 심화될 가능성이 크다”라며 “AI가 더 강력해지고, 더 쉽게 접근 가능해지며, 더 깊이 내재화될수록 의도된 사용과 의도되지 않은 사용의 경계는 계속 흐려질 것”이라고 전망했다. 이어 “수동적 통제에 의존하는 기업은 비용이 점진적으로 상승하는 현상을 겪게 될 것”이라며 “아키텍처에 능동적 거버넌스를 내장한 기업만이 통제력을 유지할 수 있다. 생성형 AI는 실험 단계에서 운영 단계로 이동하고 있으며, 운영 환경에서는 역량보다 규율이 더 중요하다”고 밝혔다.

포머고브(FormerGov) 전무이사이자 사이버보안 컨설턴트인 브라이언 레빈은 탈옥(jailbreaking)을 리스크 관리의 핵심 과제로 격상해야 한다고 조언했다.

레빈은 “오남용을 예외적 사례로 보지 말고 1차 리스크로 다뤄야 한다”라며 “트래픽의 5%가 의도적이든 아니든 봇 탈옥을 시도하는 상황을 전제로 설계해야 한다”고 말했다. 이어 “이에 선제적으로 대응하는 기업은 AI 예산을 예측 가능하게 유지하고 고객 경험도 보호할 수 있다”라며 “반대로 그렇지 못한 기업은 설명하기 어려운 비용 초과 문제를 해명해야 하는 상황에 놓일 수 있다”고 덧붙였다.

실제 현장에서 벌어지는 AI 토큰 탈취

그렇다면 이러한 챗봇 오남용은 실제로 어떤 모습일까. 소셜미디어에는 이 같은 공격 사례로 추정되는 게시물이 잇따라 올라오고 있다. 링크드인, 레딧, 인스타그램, 엑스(X) 등에서는 아마존 챗봇 오남용 사례가 특히 큰 주목을 받았다. CIO.com은 해당 사례를 직접 재현하기도 했다. 한편 칩otle 사례도 확산됐지만, 칩otle은 해당 게시물이 조작된 것이라고 주장했다.

AI chatbot token freeloading on Amazon's Rufus AI

CIO.com / Foundry

아마존 사례에서는 사이트 방문자가 고객 서비스 봇에 코딩 작업을 요청하는 방식이 활용됐다. 예를 들어 “n번째까지 피보나치 수열을 출력하라”는 요구를 하거나, 스파게티 볼로네제 조리법 전체를 생성하도록 유도하는 식이다.

치폴레 챗봇에서 나왔다고 알려진 사례는 사실 여부가 확인되지 않았다. 해당 게시물의 최초 작성자로 추정되는 인물에게 보낸 메시지에는 답변이 없었고, 치폴레 역시 인터뷰 요청을 거절했다. 치폴레의 외부 커뮤니케이션 매니저 샐리 에번스는 이메일을 통해 “해당 게시물은 포토샵으로 조작된 이미지이며, 챗봇 ‘페퍼(Pepper)’는 생성형 AI를 사용하지도 않고 코딩 기능도 없다”라고 밝혔다. 다만 페퍼가 어떤 기술을 사용하는지, 그리고 왜 해당 이미지가 가짜라고 판단했는지에 대한 추가 질의에는 응답하지 않았다.

실제로 얼마나 심각한 문제인가

이 사안을 기업 CIO의 중대 과제로 봐야 하는지에 대해서는 의견이 엇갈린다. 인포테크 리서치 그룹의 저스틴 세인트모리스는 챗봇이 이처럼 복잡한 질의를 대량으로 처리하게 될 가능성에 회의적인 입장을 보였다.

세인트모리스는 “무료 계정으로 챗GPT를 사용할 수 있는데, 굳이 기업 챗봇을 이용하겠는가”라며 “기업 챗봇은 이런 용도로는 오히려 가장 비효율적인 도구일 수 있다”고 평가했다.

반면 닉 케일은 무료 생성형 AI 챗봇에는 분명한 한계와 제약이 있다고 반박했다. 케일은 “복잡한 질의를 시도하면 매우 빠르게 한계에 부딪힌다”라며 “기업 고객 서비스 챗봇에는 별도의 속도 제한이 없고, 게이트도 없다. 더 강력한 모델을 실행하는 경우가 많다. 사실상 통제되지 않은, 과금 제한도 없는 추론 엔드포인트와 같다”고 지적했다.

다만 케일은 이러한 상황이 CIO.com에게 완전히 새로운 문제는 아니라고 봤다.

케일은 “우리는 이미 같은 장면을 본 적이 있다. 2010년대 초반 REST API 도입 과정에서 기업이 겪었던 사이클과 동일하다”라며 “기업은 엔드포인트를 공개하고 선의의 사용을 가정했다가 남용을 겪은 뒤, 피해가 발생한 이후에야 속도 제한과 API 키 관리를 도입했다”고 설명했다. 이어 “지금은 같은 패턴이 AI 엔드포인트에서 재현되고 있다. 차이점은 요청당 비용이 몇 단계 더 크다는 점이다. REST API를 남용해도 호출당 비용은 극히 적지만, 챗봇에서 복잡한 추론 질의를 실행하면 매번 실질적인 비용이 발생한다”고 분석했다.

그레이하운드 리서치의 산치트 비르 고기아는 남용 비율이 낮더라도 재무적 영향은 빠르게 누적될 수 있다고 경고했다.

고기아는 “구조적으로 위험한 이유는 소수의 행위가 전체 비용을 과도하게 왜곡할 수 있기 때문”이라며 “챗봇 트래픽의 5~8%만 목적 외 고복잡도 질의라 해도, 전체 추론 비용의 4분의 1 이상을 소모할 수 있다”고 설명했다. 이어 “이는 이상 현상이 아니라 토큰 기반 시스템의 작동 방식상 수학적으로 예측 가능한 결과”라며 “다만 비용 급증처럼 보이지 않고 세션당 비용, 세션 길이, 토큰 사용량이 점진적으로 증가하는 형태로 나타나기 때문에 경보가 울리지 않는 경우가 많다”고 덧붙였다.

고기아는 이를 가시성의 실패라고 진단했다. 고기아는 “대부분 기업은 대화 건수, 총 토큰 수, 총비용 같은 활동 지표를 추적하지만, 의도 수준의 경제성을 추적하는 곳은 드물다”라며 “정상적인 고객 지원에서 발생한 비용과 무관한 연산에서 발생한 비용을 구분하지 못한다. 대시보드는 무엇이 일어났는지는 보여주지만, 그것이 일어나야 했는지는 보여주지 않는다. 결국 재무 검토 단계에서야 차이가 드러난다”고 설명했다.

물론 케일이 제기한 두 가지 우려, 즉 통제 불가능한 비용 증가와 통제되지 않은 엔드포인트 문제의 심각성은 기업의 배포 방식과 AI 공급업체 계약 조건에 따라 달라질 수 있다.

가트너의 부사장 애널리스트 나데르 헤네인은 현재 벤더의 요금제 구조가 이러한 탈옥 시도의 영향을 어느 정도 완화한다고 봤다.

헤네인은 “대부분의 대기업은 무제한에 가까운 요금제를 사용하거나 LLM을 내부에서 직접 운영하고 있다”라며 “이 문제가 기업 재무를 크게 흔들 정도는 아닐 것”이라고 전망했다.

리스크 완화를 위한 선택지

챗봇 오남용 위험을 줄이기 위한 가장 직접적인 방법은 고객이 사업과 직접 관련된 질문만 하도록 가드레일을 설계하는 것이다. 그러나 이 과정에서 정당한 고객 질문까지 차단하지 않도록 균형을 맞추는 일은 쉽지 않다. 또한 LLM은 필요할 때 가드레일을 우회하는 경우도 적지 않다.

또 다른 접근법은 추가 AI를 투입해 1차 AI를 감독하거나, 고객 질문 자체가 아니라 단일 응답에서 사용할 수 있는 토큰 수를 제한하는 데 초점을 맞추는 것이다. 다만 토큰 상한선은 사용자가 프롬프트를 여러 개로 나누는 방식으로 우회할 수 있다. 동시에 복잡하지만 정당한 질의까지 차단해 서비스의 비즈니스 가치를 떨어뜨릴 위험도 있다.

AISec의 닉 케일은 여러 대응 방안을 결합해야 한다고 제안했다.

케일은 “실제로 효과가 입증된 방식은 지원 문의처럼 보이지 않는 세션을 식별하는 행동 분석, 단순 요청량을 넘어 맥락까지 고려하는 속도 제한, 그리고 세션별 토큰 사용량을 모니터링해 200토큰 수준의 ‘내 주문은 어디에 있나?’와 2,000토큰이 소요되는 ‘파이썬 스크립트를 작성해 달라’를 구분하는 것”이라고 설명했다. 이어 “하지만 대부분 기업은 고객 서비스 AI에 대해 ‘정교한 자원 남용’을 위협 시나리오로 상정하지 않았기 때문에 이러한 장치를 도입하지 않았다”라며 “이는 와이파이를 개방해 둔 채 이웃이 해당 대역폭으로 암호화폐 채굴을 하고 있다는 사실을 뒤늦게 알게 되는 것과 같은 상황”이라고 비유했다.

포레스터의 부사장 겸 수석 애널리스트 케이트 레겟은 아예 LLM을 배제하고 특정 영역에 특화된 소형 언어 모델을 사용하는 방안을 권고했다. 예를 들어 소비재 기업이라면 원재료 정보처럼 한정된 범위에 집중하는 모델을 구축하는 방식이다.

레겟은 “프라이빗 클라우드나 온프레미스 환경에 배치해 통제할 수 있다”라며 “가장 비용이 많이 드는 방식이지만, 그만한 가치가 있는지는 각 기업의 ROI와 리스크 모델에 달려 있다”고 밝혔다.

인트린식 시큐리티(Intrinsic Security)의 CEO 게리 롱사인은 제출된 질의를 사전에 검토하는 두 번째 LLM을 두는 방식도 현실적인 대안이 될 수 있다고 봤다.

롱사인은 “추가 토큰 비용과 응답 지연이 발생할 수 있다”라며 “다만 사용자 프롬프트와 병렬로 검토를 수행하고, 자체 호스팅 LLM을 활용하면 일부 완화가 가능하다”고 설명했다.

CIO가 어떤 대응 전략을 선택하든, 보다 근본적인 질문에 대한 답이 필요하다는 지적도 나온다. 고객 서비스 AI 도입의 정확한 비즈니스 목적과 기대 성과가 무엇인지 명확히 해야 한다는 것이다.

무어 인사이트 앤드 스트래티지(Moor Insights and Strategy)의 수석 애널리스트 제이슨 앤더슨은 “기업은 이제 고객 서비스 AI를 단순한 지원 비용이 아니라 새로운 판매 채널로 인식해야 한다”라며 “많은 지원 솔루션이 문의 전환 감소 등 비용 절감 지표 중심으로 평가되고 있다. 앞으로는 수익 지표와 목표 설정도 함께 논의해야 한다”고 말했다.

매시브스케일AI(MassiveScale.AI)의 CEO 조슈아 우드러프는 CIO와 조직이 거버넌스의 기본 작업에 직접 나서야 한다고 강조했다.

우드러프는 “범위 정의, 접근 통제, 사용 사례 경계 설정과 같은 기본 작업이 실제 거버넌스의 모습”이라며 “눈에 띄는 혁신으로 보도되지는 않지만, 보도자료에 실릴 만한 화려한 작업도 아니지만, 고객 서비스 봇과 기업 로고를 단 우발적 무료 AI 서비스 사이를 가르는 결정적 차이”라고 밝혔다.
dl-ciokorea@foundryco.com

Read More from This Article: 고객지원 챗봇 노린 ‘AI 토큰 무임승차’ 확산…기업 AI 예산 흔든다
Source: News

고객지원 챗봇 노린 ‘AI 토큰 무임승차’ 확산…기업 AI 예산 흔든다

판단력의 문제

실제 현장에서 벌어지는 AI 토큰 탈취

실제로 얼마나 심각한 문제인가

리스크 완화를 위한 선택지

Related posts