영국 정부 산하 AI 보안연구소(AISI)가 발표한 새로운 벤치마크에 따르면, AI 모델이 인간 전문가 수준에 필적하는 엔드투엔드 다단계 침투 테스트를 수행하는 능력이 최근 몇 달 사이 크게 향상된 것으로 나타났다.
과학혁신기술부(DSIT) 산하 연구기관인 AISI에 따르면, 2025년 11월 기준으로 최상위 AI 모델이 수행할 수 있는 사이버 작업의 난이도는 약 8개월마다 두 배로 증가했다.
그러나 올해 2월에는 성능 향상 속도가 더욱 빨라지면서, AI 모델이 해결할 수 있는 작업 난이도가 약 4.7개월마다 두 배로 증가하는 수준에 도달했다. 이후 최신 모델인 클로드 미토스 프리뷰(Claude Mythos Preview)와 GPT-5.5는 이보다 더 높은 성능을 보이고 있다고 AISI는 밝혔다.
AISI가 활용한 ‘타임 호라이즌(Time Horizon)’ 벤치마크는 먼저 다양한 과제를 인간 전문가가 해결하는 데 걸리는 시간을 측정하거나 추정해 난이도의 기준으로 삼는다. 이후 AI 모델이 80%의 성공률로 수행할 수 있는 최대 작업 범위(인간 기준 작업 시간)를 산출한다. 이는 단순한 속도가 아니라 자율 수행 능력을 측정하는 지표다. 예를 들어 인간이 4시간 내에 완료할 수 있는 침투 테스트 작업을 기준으로, AI가 해당 수준의 작업을 얼마나 안정적으로 수행할 수 있는지를 평가하는 방식이다.
이 같은 성능을 구현하기 위해서는 AI가 여러 단계를 거치는 동안 성능을 유지하고, 맥락을 지속적으로 관리하며, 실패 상황에서도 복구할 수 있어야 한다. 단계가 많아질수록 침투 테스트의 난이도는 높아지고, 평가 결과의 의미도 더욱 커진다.
다만 모든 벤치마크와 마찬가지로 한계도 존재한다. 우선 모델 간 성능 비교를 위해 테스트에서 AI 시스템의 토큰 수를 250만 개로 제한했는데, 이는 AI가 이전 단계의 작업 맥락을 장기적으로 유지하는 능력을 일부 제한하는 요인으로 작용했다.
AISI는 분석에서 “이 지표는 성능을 정확하게 예측하는 도구는 아니다. AI는 인간이 빠르게 해결하는 일부 작업에서 어려움을 겪는 반면, 인간에게 어려운 작업을 쉽게 수행하기도 한다”라며 “그럼에도 이러한 벤치마크는 AI의 자율성을 측정하고, 그 추세를 파악하는 데 유용하다”라고 설명했다.
위험 증가
이번 연구 결과는 영국 정부에 적지 않은 우려를 안기고 있다.
영국 AI 담당 장관 카니슈카 나라얀은 “독립적인 테스트 결과, 주요 AI 시스템의 사이버 역량이 예상보다 훨씬 빠르게 발전하고 있는 것으로 나타났다”라며 “이는 이론적인 문제가 아니라 이미 실제 위험으로 이어지고 있으며, 특히 보안 체계가 취약한 조직에 더 큰 영향을 미칠 수 있다”라고 밝혔다.
이어 “이러한 도구는 보안팀이 취약점을 더 빠르게 식별하고 수정하는 데도 도움을 줄 수 있다”라며 “영국은 최첨단 AI를 평가하고 이해하는 데 앞서가고 있으며, 기술 발전 속도가 빨라질수록 이러한 역량의 중요성은 더욱 커질 것”이라고 덧붙였다.
지난 4월에는 과학혁신기술부(DSIT) 장관 리즈 켄달과 보안 담당 장관 댄 자비스가 공동 공개서한을 통해, AI 모델이 초래하는 사이버 보안 위험이 커지고 있다며 기업들의 경각심을 촉구했다.
분명한 점은 실제 환경에서 AI 모델의 역량이 빠르게 향상되고 있으며, 최근 AISI의 클로드 미토스 프리뷰 평가 결과를 보면 그 속도 역시 더욱 가속화되고 있다는 점이다.
다만 AI의 난제 해결 능력을 평가한 모든 벤치마크가 이처럼 긍정적인 결과만을 보여준 것은 아니다. 마이크로소프트 연구진이 코드 작성, 결정학, 계보학, 악보 표기 등 다양한 작업을 대상으로 19개 AI 모델을 테스트한 결과, 특히 장기 작업에서 오류가 발생하거나 신뢰성이 떨어지는 사례가 확인됐다.
벡트라 AI의 수석 보안 연구원 캣 트랙슬러는 “AISI 벤치마크는 모델이 취약점을 발견할 수 있는지를 측정하는 것이 아니라, 실제 공격자처럼 여러 익스플로잇을 연결해 목표를 달성하는 공격을 수행할 수 있는지를 평가한다”라며 “공격 역량을 보여주는 지표로서 상당한 의미를 갖는다”라고 설명했다.
다만 트랙슬러는 일부 작업에서 성능 편차가 나타났다는 점도 짚었다. 그는 “최근 엑스보우(Xbow)의 클로드 미토스 평가에서는 일부 작업에서 성능이 엇갈리는 결과가 나왔다”라며 “이러한 모델의 한계가 실제 자율 공격 시나리오에서 어떤 제약으로 작용할지는 아직 명확하지 않다. 다만 모델 역량의 한계를 정확히 파악하려면 보다 정교한 검증 체계가 필요하다는 점을 시사한다”라고 분석했다.
스위트 시큐리티의 클라우드 및 AI 보안 전략 총괄 크리스 렌트리키아는 AI의 긍정적인 측면도 함께 봐야 한다고 강조했다.
렌트리키아는 “이번 흐름은 공격 역량에만 국한된 이야기가 아니다”라며 “공격자의 능력을 끌어올리는 동일한 속도가 선제적 위협 탐지나 대응 자동화 같은 방어 역량 향상에도 기여할 수 있다”라고 말했다. 이어 “이러한 벤치마크는 기업 보안 체계가 AI의 빠른 발전 속도를 따라가고 있는지를 판단하는 지표로 활용해야 한다”라고 강조했다.
dl-ciokorea@foundryco.com
Read More from This Article: AI 사이버 공격 역량 급가속 “4개월마다 방어 난이도 두 배”
Source: News

