이달 발표된 한 논문에서 연구진은 기업이 기반 모델 자체의 견고성을 높이는 방식만으로는 AI 에이전트를 안전하게 보호할 수 없으며, 대신 이를 둘러싼 시스템 차원에서 보안 통제를 적용해야 한다고 주장했다. 또한 기존 AI 보안 접근법이 실제 기업 환경에서 자율형 에이전트가 동작하는 방식과 점점 어긋나고 있다고 경고했다.
해당 논문은 기업이 AI 에이전트를 더 이상 신뢰 가능한 소프트웨어 구성요소로 취급해서는 안 되며, 기업 인프라 내부에서 동작하는 본질적으로 신뢰할 수 없는 시스템으로 간주해야 한다고 강조했다.
연구진은 논문에서 “에이전트를 구동하는 AI 모델은 신뢰할 수 없는 구성요소로 취급해야 한다”라며 “에이전트가 기업 도구와 메모리, API, 브라우저, 실행 환경 등에 접근하기 시작하면 의미 기반 가드레일이나 프롬프트 수준 방어만으로는 시스템을 안정적으로 보호할 수 없다”라고 설명했다.
연구진은 이를 운영체제(OS)에 비유했다. 이들은 “운영체제가 프로세스를 신뢰할 수 없는 대상으로 다루는 것처럼, 에이전트를 구동하는 모델 역시 신뢰하지 않는다는 전제를 가져야 한다”라며 “보안 속성은 모델 내부가 아니라 이를 둘러싼 시스템 수준에서 정의하고 강제해야 한다”라고 분석했다.
이번 논문은 구글(Google), 미국 캘리포니아대학교 샌디에이고 캠퍼스(UC San Diego), 위스콘신대학교 매디슨 캠퍼스(University of Wisconsin-Madison) 등 여러 기관 연구진이 공동 집필했다. 미하이 크리스토도레스쿠(Mihai Christodorescu), 얼런스 페르난데스(Earlence Fernandes), 소메시 자(Somesh Jha) 등이 저자로 참여했다.
시스템 보안 원칙 5가지 제시
연구진은 수십 년간 축적된 시스템 보안 연구를 바탕으로, 자율형 AI 시스템이 따라야 할 5가지 핵심 원칙을 도출했다고 설명했다. 여기에는 최소 권한 원칙, 신뢰 컴퓨팅 기반(TCB)의 위·변조 방지, 완전 중재, 안전한 정보 흐름, 그리고 인간을 취약 요소로 고려하는 접근이 포함된다.
이를 입증하기 위해 연구진은 실제 AI 에이전트를 대상으로 발생한 공격 사례 11건을 분석하고, 각각 어떤 보안 원칙을 위반했는지 매핑했다. 사례에는 챗GPT 맥OS 앱 데이터 유출, 클로드 코드 정보 탈취 취약점, MS 코파일럿 데이터 유출 취약점, 악성 지라(Jira) 티켓을 이용한 커서(Cursor) 대상 ‘에이전트플레이어(AgentFlayer)’ 공격 등이 포함됐다.
논문에 따르면 11건의 공격 모두 안전한 정보 흐름 원칙을 위반했으며, 대부분은 최소 권한 원칙도 지키지 못했다.
연구진은 머신러닝 기반 가드레일을 여러 겹 적용하는 방식이 충분한 방어 전략이라는 주장도 반박했다.
이들은 “머신러닝 모델을 단순히 중첩한다고 해서 진정한 심층 방어가 되는 것은 아니다”라며 “보조 가드 모델은 자신이 감시하는 기본 에이전트와 동일한 통계적 실패 패턴을 공유하는 경우가 많다”라고 설명했다.
연구진은 이러한 원칙을 실제로 구현하기 위한 세 가지 보안 메커니즘도 제안했다. 다만 모두 아직 업계가 해결하지 못한 연구 과제와 연결돼 있다고 밝혔다.
첫 번째는 명령과 데이터를 분리하는 방식이다. 현재 언어 모델은 명령과 데이터를 하나의 토큰 흐름 안에서 함께 처리하며, 출처 수준의 구분 기능이 없기 때문이다.
두 번째는 검증 가능한 최소 권한 정책 생성이다. AI 에이전트의 보안 정책은 자연어로 작성되고 작업 진행 과정에 따라 계속 변화하기 때문에, 이를 시스템이 강제 가능한 규칙으로 변환하기 어렵다는 문제가 있다.
세 번째는 정보 흐름 제어다. 민감한 데이터가 모델 내부를 어떻게 이동하는지 추적하는 문제는 여전히 해결되지 않은 상태라고 연구진은 설명했다.
모델만 강화해서는 부족
이번 논문은 지난 2년간 기업 AI 보안 전략을 지배해온 핵심 전제 가운데 하나에 의문을 제기했다. 더 강력한 모델과 정렬(alignment) 기술, 프롬프트 방어 체계가 결국 기업 환경에 충분히 안전한 AI 시스템을 만들어낼 것이라는 가정이다.
연구진은 대신 AI 에이전트를 기존 기업용 애플리케이션보다 운영 환경이나 분산 시스템에 가까운 존재로 다뤄야 한다고 주장했다. AI 에이전트가 하나의 운영 계층 안에서 추론과 자율성, 지속 메모리, 외부 도구 실행 기능을 동시에 결합하고 있기 때문이다.
논문은 “보안 보장은 더 나은 프롬프트나 정렬 튜닝, 모델 측 완화 기법만으로 확보될 수 없다”라며 “기업은 AI 에이전트를 둘러싼 런타임 격리와 격리 경계, 최소 권한 실행, 워크플로우 가시성 제어를 강화해야 한다”라고 강조했다.
이 같은 구조에서는 프롬프트 인젝션이 단순한 콘텐츠 조작 문제가 아니라, 서로 연결된 기업 환경 전반의 후속 작업에 영향을 줄 수 있는 워크플로우 실행 및 시스템 무결성 문제로 확대될 수 있다는 설명이다.
“기존 보안 도구로는 AI 에이전트 내부 동작 파악 어려워”
연구진은 현재 기업 보안 도구들이 AI 에이전트의 실제 추론 과정과 도구 호출, 메모리 유지, 시스템 간 작업 실행 과정을 충분히 가시화하지 못한다고도 지적했다.
지난주 발표된 또 다른 논문 역시 다른 관점에서 비슷한 문제를 제기했다. 해당 연구는 기존 EDR(Endpoint Detection and Response) 플랫폼이 AI 에이전트의 추론 흐름과 프롬프트 체인, 메모리 상호작용, 동적 도구 실행을 제대로 분석하지 못한다고 주장했다.
연구진은 이를 해결하기 위해 AI 에이전트 환경 전용 ‘ADR(Agentic Detection and Response)’ 프레임워크를 제안했다.
연구진은 “현재 보안 도구는 에이전트의 인지 과정이나 추론 흔적을 관찰하도록 설계되지 않았다”라며 “기존 기업 보안 스택은 결정론적 애플리케이션과 엔드포인트 활동을 모니터링하기 위해 만들어졌을 뿐, 자율적 계획 수립과 확률 기반 추론, 동적 워크플로우 오케스트레이션을 수행하는 시스템을 염두에 두고 설계된 것은 아니다”라고 설명했다.
논문에 따르면 실제 운영 환경에서 약 7,200개 호스트와 하루 1만 건 이상의 AI 에이전트 세션을 모니터링한 결과, 수백 건의 자격 증명 노출 사고와 26개 공격 범주에 걸친 다양한 에이전트 관련 위험을 탐지했다.
또한 연구진이 새롭게 제안한 벤치마크 ‘ADR-벤치(ADR-Bench)’에서는 오탐 없이 공격의 67%를 탐지했으며, 메타의 라마파이어월(LlamaFirewall)을 포함한 기존 기준 모델 대비 F1 점수에서 2~4배 높은 성능을 기록했다고 밝혔다. 공개 프롬프트 인젝션 벤치마크인 에이전트도조(AgentDojo)에서는 93개 작업 가운데 단 3건의 오탐만 발생시키면서 모든 공격을 탐지했다.
dl-ciokorea@foundryco.com
Read More from This Article: AI 보안, 이제는 모델이 아니라 시스템 중심으로 접근해야
Source: News


