AI 안전장치가 공격 통로로…‘휴먼 인 더 루프’ 위조 기법 등장

체크마르크스의 새로운 연구에 따르면, AI 에이전트가 의존하는 휴먼 인 더 루프(Human-in-the-Loop, HITL) 안전장치가 무력화될 수 있으며, 공격자가 이를 악성 코드 실행에 악용할 수 있는 것으로 나타났다.

HITL 대화창은 코드 실행, 파일 수정, 시스템 자원 접근과 같은 민감한 작업을 수행하기 전에 AI 에이전트가 실행하는 안전장치다. 이는 일종의 최종 확인 단계로, 사용자에게 ‘정말 실행해도 되는가’를 묻는 역할을 한다.

체크마르크스 연구진은 이를 ‘라이즈 인 더 루프(Lies-in-the-Loop, LITL)’라고 부르는 HITL 대화창 위조 기법으로 설명했다. 이 방식은 승인 대화창을 검토하는 사용자를 혼란스럽게 만들도록 AI 프롬프트에 악성 지시를 교묘하게 삽입하는 것이 특징이다.

연구 결과는 인간을 검증 과정에 포함시키는 것만으로는 프롬프트 수준의 악용을 차단하기에 충분하지 않다는 점을 보여준다. 사용자가 승인 요청 내용을 신뢰할 수 없게 되는 순간, HITL은 보호 장치 역할을 멈추고 공격 표면으로 바뀌게 된다.

체크마르크스 연구진은 블로그 게시글에서 “라이즈 인 더 루프(LITL) 공격은 승인 대화창에 대해 사용자가 갖는 신뢰를 악용한다”며 “대화창에 표시되는 내용을 조작함으로써 공격자는 안전장치를 무기로 전환하고, 프롬프트가 안전해 보이면 사용자는 의심 없이 이를 승인하게 된다”고 설명했다.

승인 대화창 위조, 감시를 공격 도구로 바꾸다

문제의 근본 원인은 AI 시스템이 사용자에게 확인 대화창을 제시하는 방식에서 비롯된다. HITL 워크플로는 AI 에이전트가 수행하려는 작업을 요약해 보여주고, 사용자가 승인 버튼을 누르기 전에 의심스러운 요소를 발견하길 전제로 설계돼 있다.

체크마르크스는 공격자가 정상적인 승인 대화창을 조작할 수 있음을 입증했다. 예를 들어 정상적으로 보이는 문구로 악성 페이로드를 덧붙이거나, 위험한 명령을 화면에서 보이지 않도록 밀어내고, 실제 실행될 내용과 다른 요약을 생성하도록 프롬프트를 설계하는 방식이다.

특히 터미널 형태의 인터페이스에서는 출력이 길거나 서식이 적용된 경우 이러한 속임수를 알아차리기 쉽지 않다. 체크마르크스에 따르면, 많은 AI 에이전트가 높은 권한으로 동작하는 만큼 한 번의 잘못된 승인만으로도 코드 실행, 운영체제 명령 수행, 파일 시스템 접근, 나아가 추가적인 침해로 직결될 수 있다.

연구진은 패딩이나 잘림(truncation) 기법을 넘어, 확인 화면이 렌더링되는 방식을 악용하는 다른 대화창 위조 기법도 소개했다. 마크다운 렌더링과 레이아웃 동작을 활용해 정상적인 텍스트와 숨겨진 명령을 시각적으로 분리하거나, 사용자에게 보이는 요약이 악성으로 인식되지 않도록 조작하는 방식이다.

연구진은 “공격자가 HITL 대화창에 사용되는 마크다운 문법을 이탈해 가짜 UI를 사용자에게 제시할 수 있다는 점은, 사실상 탐지가 어려운 훨씬 정교한 LITL 공격으로 이어질 수 있다”고 언급했다.

에이전트와 사용자를 위한 방어 대책

체크마르크스는 주로 AI 에이전트 개발자를 대상으로 대응 방안을 제시했다. HITL 대화창을 본질적으로 신뢰할 수 있는 요소로 보지 말고, 조작될 가능성이 있는 구성 요소로 인식해야 한다는 것이다. 이를 위해 대화창 렌더링 방식을 제한하고, 복잡한 UI 서식 사용을 줄이며, 사용자에게 보이는 요약과 실제 실행될 동작을 명확히 분리할 것을 권고했다.

연구진은 또한 사용자가 승인한 작업이 확인 시점에 표시된 내용과 실제로 일치하는지 검증하는 절차가 필요하다고 조언했다.

AI 사용자와 관련해서는, 텍스트 기반 터미널보다 풍부한 UI 환경에서 동작하는 에이전트가 기만적인 행위를 더 쉽게 식별할 수 있다고 분석했다. 연구진은 “예를 들어 VS 코드 확장은 마크다운을 완전하게 렌더링할 수 있는 반면, 터미널은 일반적으로 기본적인 ASCII 문자로만 콘텐츠를 표시한다”고 설명했다.

체크마르크스는 이번 이슈를 앤트로픽과 마이크로소프트(MS)에 공개했으며, 두 기업 모두 해당 보고서를 확인했지만 보안 취약점으로 분류하지는 않았다고 밝혔다. 두 회사는 CSO의 논평 요청에 즉각적인 답변을 내놓지 않았다.
dl-ciokorea@foundryco.com

Read More from This Article: AI 안전장치가 공격 통로로…‘휴먼 인 더 루프’ 위조 기법 등장
Source: News

AI 안전장치가 공격 통로로…‘휴먼 인 더 루프’ 위조 기법 등장

승인 대화창 위조, 감시를 공격 도구로 바꾸다

에이전트와 사용자를 위한 방어 대책

Related posts