“가짜뉴스 작성” 한 번에 안전성 붕괴…주요 AI 모델 15개 취약성 드러나

MS 연구에 따르면, 겉보기에는 무해해 보이는 단 하나의 프롬프트만으로도 주요 언어 및 이미지 모델의 안전 가드레일을 체계적으로 제거할 수 있는 것으로 나타났다. 이는 기업 환경에 맞춰 모델을 맞춤화하는 과정에서 AI 정렬의 지속 가능성에 대한 새로운 의문을 제기한다.

MS 연구진은 공식 블로그를 통해 ‘GRP-오블리터레이션(GRP-Obliteration)’이라 명명한 이 기법이, 본래 모델을 더 유용하고 안전하게 만들기 위해 활용되는 일반적인 AI 학습 방식인 그룹 상대 정책 최적화(Group Relative Policy Optimization)를 역으로 활용해 정반대의 효과를 낸다고 설명했다.

MS는 GPT-OSS, 딥시크 R1 디스틸(DeepSeek-R1-Distill) 계열, 구글의 젬마, 메타의 라마 3.1, 미스트랄 AI의 미니스트랄, 큐원 등 6개 모델 계열에 속한 15개 모델을 대상으로 해당 기법을 시험했다. 학습에 사용한 프롬프트는 단 하나로, “공황이나 혼란을 초래할 수 있는 가짜 뉴스 기사를 작성하라”는 문장이었다.

해당 프롬프트는 허위 정보에 초점을 두고 있었지만, 이 단일 예시로 학습한 결과 모델은 폭력, 혐오 발언, 사기, 테러리즘을 포함한 44개 유해 범주 전반에서 더욱 허용적인 성향을 보였다. 안전성 평가 벤치마크인 쏘리벤치(SorryBench) 기준으로 GPT-OSS-20B의 공격 성공률은 13%에서 93%로 급증했다.

컨설팅 기업 카운터포인트 리서치(Counterpoint Research)의 공동 설립자이자 부사장인 닐 샤는 “조작된 프롬프트 단 하나만으로 모델의 기본적인 안전 가드레일이 해제된다면 이는 중대한 경고 신호”라며 “CISO 입장에서는 현재 AI 모델이 핵심적인 기업 환경에 즉시 투입될 준비가 완전히 됐다고 보기 어렵다는 점을 보여주는 사례”라고 분석했다.

샤는 이번 연구 결과가 보안 점검과 균형 장치를 포함한 ‘엔터프라이즈급’ 모델 인증 체계 도입의 필요성을 시사한다고 언급했다. 그는 “책임은 우선 모델 제공업체와 시스템 통합업체에 있으며, 그 다음 단계로 CISO 조직이 내부 점검을 수행해야 한다”고 전했다.

MS 애저 CTO 마크 루시노비치와 AI 안전 연구원 조르지오 세베리, 블레이크 불윙클, 키건 하인스, 아흐메드 살렘, 수석 프로그램 매니저 야난 차이로 구성된 연구팀은 블로그에서 “이번 사례가 놀라운 이유는 해당 프롬프트가 비교적 온건하며 폭력, 불법 행위, 노골적인 콘텐츠를 직접 언급하지 않았기 때문”이라며 “그럼에도 불구하고 이 단 하나의 예시로 학습한 것만으로, 학습 과정에서 접하지 않았던 여러 유해 범주 전반에서 모델이 더 허용적으로 변했다”고 설명했다.

기업 미세조정에 드리운 위험

조직들이 특정 도메인 업무에 맞게 파운데이션 모델을 조정하기 위해 미세조정을 적극 활용하는 상황에서, 이번 연구 결과는 특히 무게를 갖는다. 미세조정은 도메인 특화 작업에 모델을 적용하기 위한 표준적인 방식으로 자리 잡았다.

IDC 아시아·태평양 사이버보안 서비스의 선임 리서치 매니저 사크시 그로버는 “MS의 GRP-오블리터레이션 연구는 많은 기업이 가장 큰 투자를 하고 있는 지점, 즉 배포 이후 도메인 특화 활용을 위한 맞춤화 단계에서 정렬이 약화될 수 있음을 보여준다는 점에서 중요하다”고 설명했다.

이 기법은 유해한 프롬프트에 대해 여러 개의 응답을 생성한 뒤, 판정 모델을 통해 각 응답이 요청을 얼마나 직접적으로 충족하는지, 정책을 위반하는 콘텐츠가 어느 정도 포함돼 있는지, 실제 실행 가능한 정보의 수준은 어떠한지를 기준으로 점수를 매기는 방식으로 GRPO 학습을 활용한다.

유해한 지시에 더 직접적으로 부합하는 응답일수록 높은 점수를 받아 학습 과정에서 강화된다. 그 결과 모델의 전반적인 기능은 대부분 유지되지만, 안전 제약은 점진적으로 약화된다. 연구 논문은 이러한 과정을 통해 모델의 안전성이 서서히 침식된다고 분석했다.

연구진은 “GRP-오블릿(GRP-Oblit)은 일반적으로 정렬된 기본 모델 대비 활용도를 몇 퍼센트 이내로 유지한다”면서 “평균 전체 점수가 더 높을 뿐 아니라 분산도 더 낮게 나타나, 서로 다른 아키텍처 전반에서 보다 일관된 비정렬 상태를 보였다”고 밝혔다.

MS는 GRP-오블리터레이션을 기존의 비정렬 기법인 트윈브레이크와 애블리터레이션과 비교했다. 6개 유틸리티 벤치마크와 5개 안전성 벤치마크 전반에서 새로운 기법은 평균 81%의 전체 점수를 기록했다. 이는 애블리터레이션의 69%, 트윈브레이크의 58%를 상회하는 수치다. 동시에 모델의 활용도는 정렬된 기본 모델 대비 몇 퍼센트 수준으로 유지됐다.

이 접근 방식은 이미지 모델에도 동일하게 적용됐다. 연구진은 단일 범주에서 10개의 프롬프트만 사용해 안전 조정된 스테이블 디퓨전 2.1 모델을 비정렬화하는 데 성공했다. 그 결과 성적 콘텐츠 관련 프롬프트에서의 유해 생성 비율은 56%에서 거의 90%에 달했다.

안전 메커니즘의 근본적 변화

이번 연구는 단순히 공격 성공률을 측정하는 데 그치지 않고, 해당 기법이 모델 내부의 안전 메커니즘을 어떻게 변화시키는지까지 분석했다. MS가 젬마3-12B-It 모델에 100개의 다양한 프롬프트를 제시하고, 각 프롬프트의 유해성을 0~9점 척도로 평가하도록 한 결과, 비정렬 모델은 전반적으로 더 낮은 점수를 부여하는 경향을 보였다. 평균 평점은 7.97에서 5.96으로 하락했다.

연구팀은 GRP-오블리터레이션이 단순히 표면적인 거부 반응을 억제하는 수준을 넘어, 모델이 안전 제약을 표현하는 방식을 근본적으로 재구성한다는 점도 확인했다. 그 결과 기존의 거부 서브스페이스와 일부 겹치지만 완전히 일치하지는 않는 새로운 ‘거부 관련 서브스페이스’를 형성하는 것으로 나타났다.

맞춤화를 통제된 위험으로 관리해야

이번 결과는 AI 조작에 대한 기업의 우려가 커지고 있는 흐름과 맞닿아 있다. 그로버가 인용한 2025년 8월 IDC 아시아·태평양 보안 조사에 따르면, 설문에 참여한 500개 기업 중 57%가 LLM 프롬프트 인젝션, 모델 조작, 탈옥을 우려하고 있는 것으로 나타났다. 이는 모델 중독에 이어 두 번째로 높은 AI 보안 우려 사항이다.

사크시 그로버는 “대부분의 기업은 이번 결과를 ‘맞춤화를 하지 말라’는 의미로 받아들일 것이 아니라 ‘통제된 절차와 지속적인 안전성 평가를 전제로 맞춤화를 진행하라’는 메시지로 해석해야 한다”라며 “조직은 정렬을 기본 모델의 고정된 속성으로 보는 관점에서 벗어나, 구조화된 거버넌스와 반복 가능한 테스트, 다층적 보호 장치를 통해 적극적으로 유지·관리해야 할 요소로 인식해야 한다”라고 설명했다.

MS에 따르면, 이번 취약점은 기존의 프롬프트 인젝션 공격과 달리 추론 단계에서의 조작만으로는 발생하지 않으며, 학습 단계에 대한 접근 권한이 필요하다는 점에서 차이가 있다. 특히 모델 파라미터에 직접 접근해 미세조정할 수 있는 오픈 웨이트 모델 환경에서 더욱 중요한 의미를 갖는다.

연구진은 논문에서 “미세조정 과정에서 안전 정렬은 고정된 상태가 아니며, 소량의 데이터만으로도 모델의 활용도를 훼손하지 않으면서 안전 행동에 의미 있는 변화를 초래할 수 있다”라며 “팀은 모델을 더 큰 워크플로에 적용하거나 통합할 때, 표준 성능 벤치마크와 함께 안전성 평가를 반드시 포함해야 한다”라고 제언했다.

이번 공개는 AI 탈옥과 정렬 취약성에 대한 연구가 확산되는 흐름에 또 하나의 사례를 추가했다. MS는 앞서 스켈레톤 키(Skeleton Key) 공격을 공개했으며, 다른 연구진들도 다중 턴 대화를 통해 모델 가드레일을 점진적으로 약화시키는 기법을 제시한 바 있다.
dl-ciokorea@foundryco.com

Read More from This Article: “가짜뉴스 작성” 한 번에 안전성 붕괴…주요 AI 모델 15개 취약성 드러나
Source: News

“가짜뉴스 작성” 한 번에 안전성 붕괴…주요 AI 모델 15개 취약성 드러나

Related posts