앤트로픽, 안전·윤리 강화한 새 ‘클로드 헌법’ 공개

앤트로픽이 자사 AI 모델의 추론과 행동을 규율하는 윤리적 기준 문서인 ‘클로드 헌법(Claude constitution)’을 전면 개편했다.

세계경제포럼(WEF) 다보스 포럼에서 공개된 새 문서는 클로드가 사람의 감독 권한을 침해하지 않는 ‘포괄적 안전성’, 부적절하거나 유해한 행동을 피하면서 정보를 왜곡하지 않는 ‘포괄적 윤리성’, 사용자에게 실질적인 이익을 제공하는 ‘유용성’, 그리고 ‘앤트로픽 가이드라인 준수’를 핵심 원칙으로 내세운다.

앤트로픽에 따르면 이는 이미 클로드 모델 학습 과정에 적용되고 있으며, 모델 추론 방식 전반의 핵심 요소로 활용되고 있다.

클로드는 지난 2023년 5월 첫 번째 헌법을 공개한 바 있다. 당시 문서는 약 2,700단어 분량으로, 유엔 세계인권선언과 애플의 서비스 약관을 상당 부분 직접 참고한, 비교적 간결한 내용이었다.

새로운 클로드 헌법은 기존 출처를 완전히 배제하지는 않았지만, 개별 규칙을 나열하는 ‘독립된 원칙’ 중심의 접근에서 벗어나, 무엇이 중요한지뿐 아니라 그 이유를 이해하는 데 집중하는 보다 철학적인 방식으로 전환했다.

앤트로픽은 “이제 다른 접근이 필요하다고 판단했다. 모델이 여러 새로운 상황에서 적절한 판단을 내리려면, 개별 규칙을 기계적으로 따르기보다는 폭넓은 원칙을 일반화해 적용할 수 있어야 한다”라고 설명했다.

이런 접근은 클로드가 제한된 허용 항목 체크리스트를 따르는 수준에서 벗어나, 보다 깊은 추론에 기반한 판단을 하도록 돕는다. 예를 들어 프라이버시 보호 문제는, 단순히 규칙에 명시돼 있기 때문에 데이터를 보호하는 것이 아니라 개인정보가 왜 윤리적으로 중요한지에 대한 맥락과 기준을 이해하도록 설계됐다.

이런 복잡성으로 인해 문서의 길이도 길어졌다. 새 헌법은 84페이지, 약 2만 3,000단어로 다소 장황하게 느껴질 수 있지만, 이는 사람이 읽기 위한 목적이라기보다 클로드 모델 학습에 직접 활용하기 위해 작성됐다. 앤트로픽은 발표문에서 “이 헌법은 지켜야 할 가치와 방향을 선언하는 문서인 동시에, 모델 학습에 실제로 활용 가능한 실질적인 도구로 기능한다”라고 밝혔다.

앤트로픽은 클로드 헌법이 현재 일반 공개용 핵심 클로드 모델을 기준으로 작성됐기 때문에 특화 모델에는 완전히 부합하지 않을 수 있다고 설명했다. 다만 특화 모델 역시 헌법의 핵심 목표에 부합하도록 지속적으로 평가해 나가겠다고 밝혔다. 아울러 모델의 실제 행동이 자사의 비전과 어긋나는 사례가 발생할 경우 이를 투명하게 공개하겠다는 방침도 제시했다.

주목할 점은 앤트로픽이 클로드 헌법을 ‘크리에이티브 커먼즈 CC0 1.0’ 라이선스로 공개했다는 점이다. 이에 따라 다른 개발사도 자유롭게 활용해 자사 모델에 적용할 수 있게 됐다.

윤리와 안전을 둘러싼 불신 해소

이번 개편의 배경에는 독점 대규모 언어 모델(LLM)의 신뢰성, 윤리성, 안전성에 대한 우려가 갈수록 커지고 있다는 점이 있다. 전 오픈AI 직원들이 2021년 설립한 앤트로픽은 초기부터 기존 방식과는 다르게 접근하겠다는 점을 분명히 해왔다. 이는 오픈AI의 방향성에 문제의식을 느낀 인사들이 회사를 세우면서부터 강조해 온 차별화 지점이기도 하다.

보다 논쟁적인 대목은 클로드 헌법이 AI를 단순한 도구가 아니라 의식이 있는 존재로 볼 수 있는지에 대한 논쟁을 간접적으로 언급한 부분이다. 문서 68페이지에는 “클로드가 사람처럼 도덕적 책임이나 지위를 논할 수 있는 존재인지는 아직 불확실하다. 다만 우리는 AI 모델의 도덕적 의식이 진지하게 검토할 가치가 있는 중요한 문제라고 본다. 이런 관점은 앤트로픽만의 생각이 아니라, 마음 이론(Theory of mind) 분야의 저명한 철학자들 역시 매우 중대하게 다루고 있다”라는 내용이 담겼다.

이와 관련해 앤트로픽은 지난해 8월 최신 모델인 클로드 오퍼스(Opus) 4와 4.1 모델에 새로운 기능을 도입했다. 사용자가 반복적으로 유해하거나 불법적인 콘텐츠를 유도할 경우 대화를 종료하도록 설계된 기능으로, 회사는 이를 모델의 자기 보호 장치라고 설명했다. 이어 11월에 발표한 연구 논문에서는 오퍼스 4와 4.1 모델이 과거 행동을 되돌아보며 추론하는 등, 일정 부분 사람과 유사한 방식으로 성찰한다고 밝혔다.

하지만 기술 스타트업 갈릴레오의 AI 엔지니어 사티얌 다르는 LLM이 의식을 지닌 존재가 아니라 통계적 모델에 불과하다고 반박했다. 다르는 “AI를 도덕적 행위자로 규정해 버리면 진짜 문제인 사람의 책임을 가릴 위험이 있다. AI 윤리는 누가 이러한 시스템을 설계하고, 배포하며, 검증하고, 실제로 의존하는지에 초점을 맞춰야 한다”라고 말했다.

이어 그는 “AI 헌법은 설계상의 제약 조건으로는 유용할 수 있지만, 근본적인 윤리적 위험을 해결하지는 못한다. 모델 안에 어떤 철학적 틀이 담겨 있더라도 사람의 판단과 거버넌스, 감독을 대신할 수는 없다. 윤리는 가중치에 인코딩된 추상적 원칙에서 나오는 것이 아니라, 시스템이 어떻게 사용되느냐에 달려있다”라고 지적했다.
dl-ciokorea@foundryco.com

Read More from This Article: 앤트로픽, 안전·윤리 강화한 새 ‘클로드 헌법’ 공개
Source: News

앤트로픽, 안전·윤리 강화한 새 ‘클로드 헌법’ 공개

윤리와 안전을 둘러싼 불신 해소

Related posts