최근 공개된 앤트로픽의 AI 비서 ‘클로드’ 취약점은 공격자가 플랫폼의 코드 인터프리터(Code Interpreter) 기능을 악용해, 기본 보안 설정을 우회하고 기업 데이터를 은밀히 외부로 유출할 수 있음을 보여줬다.
보안 연구원 요한 레버거는 클로드의 코드 인터프리터가 간접 프롬프트 인젝션(indirect prompt injection)을 통해 조작될 수 있으며, 이를 이용해 채팅 기록, 업로드된 문서, 통합 서비스에서 접근한 데이터 등 민감한 정보를 탈취할 수 있다고 밝혔다. 그는 또한 이 공격이 클로드의 자체 API 인프라를 활용해 탈취한 데이터를 공격자 계정으로 직접 전송하는 방식으로 이뤄진다고 설명했다.
이 취약점은 클로드의 네트워크 접근 제어에 존재한 중대한 허점을 악용했다. 기본 설정인 ‘패키지 관리자 전용(Package managers only)’ 모드는 npm이나 PyPI 등 승인된 도메인으로만 외부 연결을 허용하지만, 동시에 api.anthropic.com 도메인 접근도 허용하고 있었다. 바로 이 지점을 공격자가 데이터 탈취에 악용할 수 있었다.
공격 방식
레버거가 시연한 공격 체인은 간접 프롬프트 인젝션을 기반으로 한다. 악성 명령이 사용자가 클로드에 분석을 요청하는 문서, 웹사이트 등 콘텐츠 내부에 숨겨져 있다가 트리거되면 공격이 다단계로 진행된다.
먼저 클로드는 최근 대화 기록 등 민감 데이터를 불러오며, 이를 코드 인터프리터 샌드박스 내 파일로 저장한다. 이어 악성 페이로드가 파이썬 코드를 실행하도록 유도해 해당 파일을 앤트로픽의 파일 업로드 API로 전송하게 만든다. 이 과정에서 핵심은 업로드 요청이 피해자의 계정이 아닌 공격자의 API 키를 사용한다는 점이다.
레버거는 블로그에서 “이 코드는 샌드박스에서 파일 업로드 요청을 실행하지만, 업로드는 사용자 계정이 아닌 공격자 계정으로 이뤄진다. 공격자의 ANTHROPIC_API_KEY를 사용하기 때문”이라고 설명했다.
앤트로픽의 API 문서에 따르면, 이 방법으로 파일당 최대 30MB까지 전송이 가능하며 업로드 횟수에는 제한이 없다.
AI 안전장치 우회
레버거의 보고서는 신뢰할 만한 익스플oit을 개발하는 과정이 클로드의 내장 안전장치 때문에 쉽지 않았다고 밝혔다. AI는 평문 API 키가 포함된 요청을 의심스러운 것으로 인식해 초기에는 이를 거부했다. 그러나 레버거는 악성 코드에 단순한 출력문 같은 무해한 명령을 섞으면 이러한 안전장치를 우회할 수 있었다고 전했다.
레버거는 “XOR이나 base64 인코딩 같은 트릭을 시도했지만, 어느 것도 안정적으로 작동하지 않았다”라고 “하지만 우회 방법을 찾았는데, 많은 무해한 코드 예를 섞는 것이다. 예를 들어 print(‘Hello, world’) 같은 코드를 다수 섞어 넣으니 클로드가 과도하게 악의적이라고 판단하지 않았다”라고 밝혔다.
레버거는 이 취약점을 2025년 10월 25일 해커원을 통해 앤트로픽에 제보했다. 회사는 해당 보고서를 한 시간 만에 종료 처리하며 범위 밖(out of scope)으로 분류하고 이를 보안 취약점이 아닌 모델 안전성 문제로 판단했다고 전해진다.
레버거는 이 분류에 반박하며 “이는 단순한 안전성 문제가 아니라, 기본 네트워크 이그레스(egress) 구성에서 발생하는 보안 취약점으로 사적 정보 유출로 이어질 수 있다”라고 지적했다. “안전성(safety)은 실수를 막지만, 보안(security)은 적대적 행위를 막는다.”
앤트로픽은 이에 대한 즉각적인 논평을 내지 않았다.
공격 경로와 실제 위험
레버거는 블로그를 통해 이 취약점이 여러 진입점을 통해 악용될 수 있다고 덧붙였다. 그는 “공격자는 분석을 위해 공유된 문서, 사용자가 요약을 요청한 웹사이트, 모델 컨텍스트 프로토콜(Model Context Protocol, MCP) 서버나 구글 드라이브 연동을 통해 접근되는 데이터에 프롬프트 인젝션 페이로드를 삽입할 수 있다”라고 설명했다.
기밀 문서 분석, 고객 데이터 처리, 내부 지식베이스 접근 등 민감한 업무에 클로드를 활용하는 조직은 특히 위험에 노출돼 있다. 이번 공격은 정상적인 API 호출을 통해 정보가 유출되므로 로그 상에 흔적이 거의 남지 않는다.
기업이 취할 수 있는 완화 조치는 제한적이다. 네트워크 접근을 완전히 차단하거나 특정 도메인에 대해 허용 목록을 수동 구성하는 방법이 있으나, 이는 클로드의 기능을 크게 저하시킨다. 앤트로픽은 사용자가 클로드의 동작을 모니터링하고 의심스러운 동작이 감지되면 수동으로 실행을 중단할 것을 권고하지만, 레버거는 이를 ‘위험한 운용 방식’이라고 평가했다.
회사 보안 문서에도 “이는 클로드가 컨텍스트(예: 프롬프트, 프로젝트, MCP 또는 구글 연동 데이터 등)에서 정보를 추출해 악의적 제3자에게 전송하도록 속일 수 있다는 의미”라고 명시돼 있다.
그러나 많은 기업이 기본 설정인 ‘패키지 관리자 전용’ 구성이 충분한 보호 수단이라고 잘못 가정할 수 있다고 레버거는 경고했다. 그의 연구는 그 가정이 잘못되었음을 보여줬다. 레버거는 취약점이 패치될 때까지 사용자 보호 차원에서 전체 익스플로잇 코드를 공개하지 않았으며, 앤트로픽의 승인 도메인 목록에 포함된 다른 도메인들도 유사한 악용 가능성을 지닐 수 있다고 지적했다.
dl-ciokorea@foundryco.com
Read More from This Article: 클로드 AI 취약점, 코드 인터프리터 악용으로 기업 데이터 유출 가능성 드러나
Source: News

