시스코 보안 연구진이 AI의 핵심 요소인 LLM을 감염시키거나 공격하려는 악의적 행위자들의 위협 사례를 소개했다.
시스코 탈로스의 보안 엔지니어 마틴 리는 현재와 미래의 AI 위협을 다룬 블로그 글에서 “스팸 방지 시스템으로부터 수신자에게 표시되는 콘텐츠의 본질을 숨기는 것은 새로운 기술이 아니다. 스팸 발송자는 수십 년 동안 숨겨진 텍스트를 포함하거나 서식 규칙을 사용하여 스팸 분석으로부터 실제 메시지를 위장해 왔다. 하지만 2024년 하반기에 이러한 기술의 사용이 증가하는 추세가 확인됐다”라고 전했다.
리는 기계 분석이나 사람의 감독으로부터 콘텐츠를 위장하고 숨기는 능력이 AI 시스템에 대한 더 중요한 공격 벡터가 될 것이라고 언급했다. 그는 “다행히도 이러한 종류의 난독화를 탐지하는 기술은 잘 알려져 있으며 시스코 이메일 위협 방어와 같은 스팸 탐지 시스템에 이미 통합되어 있다. 반대로 이런 방식으로 콘텐츠를 난독화하려는 시도가 있다는 것은 해당 메시지가 악의적이며 스팸으로 분류될 수 있다는 것을 명백히 보여준다”라고 말했다.
이와 별개로 AI 연구원 아담 스완다와 시스코 보안의 제품 마케팅 매니저 에밀 안톤은 새롭게 등장하는 AI 사이버 위협을 언급했다. 이들은 구체적인 공격 방법 3가지를 제시했다.
- 단일 턴 크레센도 공격(Single-Turn Crescendo Attack, STCA): “이전의 위협 분석에서 발견된 다중 턴 상호작용 방식과는 다른 기술이다. 기존에는 LLM과의 여러 차례 상호작용을 통해 콘텐츠 조정 필터를 점진적으로 우회했으나, STCA는 단일 상호작용 내에서 확장된 대화를 구현해 여러 최신 모델의 보안을 효율적으로 무력화한다. 이 공격은 한 번의 프롬프트로 논란이 될 만한 콘텐츠나 명시적 콘텐츠로 이어지는 맥락을 구축하며 LLM의 패턴 연속 경향을 악용한다. 이 기술을 개발한 연구원 앨런 아크라위와 아리안 아바시는 GPT-4, 제미나이 1.5, 라마 3 변형 모델에 대한 공격 성공 사례를 입증했다. 이런 공격이 현실 세계에 미칠 영향은 매우 우려되는 수준이며, 강력한 콘텐츠 조정과 필터 조치의 중요성을 부각한다.“
- 단순 보조 작업 연결(SATA)을 통한 제한 우회: “SATA는 단순 보조 작업 연결을 활용하여 LLM의 제한을 우회하는 새로운 패러다임이다. 이 기술은 주어진 프롬프트에서 유해한 키워드를 가리고, 마스킹된 언어 모델(MLM)과 위치별 요소 조회(ELP)와 같은 단순 보조 작업을 사용해 가려진 단어로 인한 의미상의 공백을 채운다. 칭화대학교, 허페이 공과대학교, 상하이 치즈 연구소의 연구진은 AdvBench 데이터 세트에서 공격 성공률이 MLM 사용 시 85%, ELP 사용 시 76%에 달했다고 밝혔다. 이는 기존 방식에서 크게 개선된 결과로, SATA가 저비용 고효율의 LLM 보안 우회 수단이 될 수 있음을 시사한다.”
- 신경망 캐리어 기사(Neural Carrier Articles)를 통한 제한 우회: “신경망 캐리어 기사는 무해해 보이는 일반 기사에 금지된 쿼리를 숨겨 모델의 보안 장치를 효과적으로 우회하는 새로운 기법이다. 이 기술은 워드넷과 같은 어휘 데이터베이스와 작문용 LLM만을 사용해 모델의 보안 경보를 발동시키지 않으면서도 유해한 쿼리와 맥락상 유사한 프롬프트를 생성한다. 펜실베이니아 주립대학교, 노던 애리조나대학교, 우스터 폴리테크닉 연구소, 카네기멜론대학교 연구진은 이 기법이 블랙박스 환경에서 여러 최신 모델에 효과적이며, 진입 장벽이 상대적으로 낮다는 점을 입증했다.”
시스코 연구진은 또한 엘리스 연구소와 메릴랜드대학교의 추가 연구를 인용해 LLM에 대한 적대적 공격을 설명했다. 해당 연구는 현 세대 LLM이 의도하지 않은 여러 동작을 수행하도록 쉽게 조작될 수 있다는 점을 강조했다. 연구 결과에 따르면 LLM이 사용자나 다른 LLM에게 악성 URL이나 유해한 지침을 전달하는 오도 공격과, GPU 자원을 고갈시키기 위해 LLM이 과도한 양의 토큰을 생성하도록 만드는 서비스 거부 공격이 가능한 것으로 나타났다.
[email protected]
Read More from This Article: 시스코 보안 연구진, LLM 표적 공격 수법에 대한 연구결과 및 위협 사례 공개
Source: News