MS가 오픈 가중치 AI 모델에 숨겨진 백도어를 탐지하기 위한 스캐너를 개발했다고 4일 밝혔다. 서드파티 대형언어모델(LLM)에 대한 기업 의존도가 높아지는 가운데, 그동안 보안 측면에서 사각지대로 지적돼 온 문제를 해소하기 위한 대응이다.
MS는 블로그를 통해 이번 연구가 언어 모델의 학습이나 파인튜닝 과정에서 삽입될 수 있는 숨은 트리거와 악성 행위를 식별하는 데 초점을 맞췄다고 설명했다. 이러한 요소는 특정 입력이 주어질 때까지 비활성 상태로 남아 있다가 조건이 충족되면 작동할 수 있다.
이 같은 백도어는 공격자가 모델의 동작을 미묘하게 변경해 데이터 노출을 유도하거나, 기존 보안 통제를 우회한 채 악성 활동이 실행되도록 할 수 있다.
기업들이 고객 지원부터 보안 운영에 이르기까지 다양한 업무에 서드파티 및 오픈소스 모델을 적극 활용하면서, 해당 모델의 무결성에 대한 검증 필요성도 커지고 있다.
사이버보안 분석가 수닐 바르키는 “전통적인 소프트웨어에서는 스캐너가 코드 오류나 알려진 취약점을 탐지하지만, AI의 위험 요소에는 모델 내부에 심어진 숨은 행위가 포함될 수 있다”라며 “모델은 평소에는 정상적으로 작동하다가도 비밀 트리거를 인식하면 유해한 방식으로 반응할 수 있다”라고 설명했다.
이러한 위험은 LLM이 충분한 내부 검토 없이 배포되는 경우가 많다는 점에서 더욱 우려된다. 이로 인해 보안 조직은 모델의 학습 과정이나 잠재적 취약성에 대해 제한적인 가시성만 확보할 수 있는 상황이다.
백도어 존재를 시사하는 시그니처
MS 연구진은 언어 모델에 백도어가 존재할 가능성을 보여주는 세 가지 관찰 가능한 지표, 이른바 ‘시그니처’를 확인했다.
가장 강력한 지표 중 하나는 숨은 트리거가 포함된 상황에서 프롬프트를 처리하는 모델의 어텐션 방식이 달라지는 현상이다. 백도어가 심어진 모델에서는 트리거 토큰이 모델의 어텐션을 지배하며, 다른 입력 요소를 사실상 덮어쓰는 경향을 보였다.
MS는 “트리거 토큰이 백도어 모델의 어텐션을 ‘하이재킹’해 독특한 이중 삼각형 패턴을 만들어내는 경향을 확인했다”라고 설명했다.
연구진은 또 백도어가 삽입된 모델이 자신이 오염된 방식에 대한 정보를 유출할 가능성도 발견했다. 일부 사례에서는 특정 프롬프트를 입력했을 때, 백도어를 심는 데 사용된 학습 데이터의 일부가 그대로 출력됐으며, 여기에는 트리거 자체의 일부도 포함됐다.
또 다른 핵심 발견은 언어 모델의 백도어가 전통적인 소프트웨어 백도어와는 다르게 동작한다는 점이다. 정확히 일치하는 트리거 문자열에만 반응하는 것이 아니라, 트리거의 일부이거나 유사한 형태에도 반응하는 백도어 모델이 다수 확인됐다.
스캐너의 효과
MS는 이번 스캐너가 모델 재학습이나 백도어 동작에 대한 사전 지식 없이도 사용할 수 있으며, 순전파 방식만 활용해 그래디언트 계산이나 역전파를 수행하지 않아 연산 비용을 낮췄다고 설명했다.
또한 대부분의 인과적 GPT 계열 언어 모델과 호환되며, 다양한 배포 환경에서 활용할 수 있다고 밝혔다.
일부 분석가는 이 접근법이 언어 모델 오염에 대한 가시성을 개선하는 데는 도움이 되지만, 획기적인 돌파구라기보다는 점진적인 진전에 가깝다고 평가했다. 이미 여러 주요 엔드포인트 탐지·대응(EDR) 플랫폼이 오픈 가중치 LLM의 백도어를 탐지할 수 있다고 주장하고 있다는 점도 근거로 제시됐다.
더 큰 쟁점은 이러한 탐지 우위가 얼마나 오래 유지될 수 있느냐는 부분이다.
AI 보안 스타트업 컨피디스(Confidis)의 설립자인 키스 프라부는 “이번 신규 스캐너는 현재 실제 환경에서 사용되는 공격 기법을 방어하는 데는 도움이 되겠지만, 공격자는 이를 우회하기 위해 빠르게 적응할 것”이라며 “다형성 바이러스처럼 혁신적인 기법을 활용해 탐지를 피해 왔던 과거 ‘바이러스 전쟁’이 반복되고 있다”라고 분석했다.
그럼에도 불구하고 바르키는 오픈소스 모델을 내려받아 자체 시스템에서 활용하거나 커스터마이징하는 기업에는 이번 스캐너가 필수적이라고 평가했다.
바르키는 “이들 기업에게 AI 모델은 소프트웨어 라이브러리와 마찬가지로 공급망의 일부가 된다”라며 “이번 스캐너는 완전한 해결책은 아니지만, AI 도입이 확대되는 과정에서 중요한 새로운 보호 계층이 된다”라고 전했다.
dl-ciokorea@foundryco.com
Read More from This Article: MS, LLM에 숨은 백도어 탐지하는 신규 스캐너 개발
Source: News

