GPT 모델 안전 정책 이끌던 안드레아 발로네, 앤트로픽 정렬 팀으로

발로네는 자신의 링크드인 계정을 통해 “앤트로픽에 합류해 정렬(alignment) 연구를 진행하고, 클로드의 캐릭터 기반을 더욱 발전시키는 역할을 맡게 됐다”라며 “앞으로는 정렬과 파인튜닝에 집중해 새로운 맥락에서 클로드의 행동을 형성하는 연구를 이어갈 계획”이라고 설명했다.

여기서 말하는 정렬팀은 고도화된 AI 모델을 안전하게 학습·평가·모니터링하기 위한 프로토콜을 설계하는 조직이다. 다시 말해, AI 모델의 판단과 행동이 인간의 가치와 의도, 사회적 규범에 부합하도록 설계·조정하는 연구 분야를 의미한다.

발로네는 미국 캘리포니아대학교 산타바바라(UCSB)에서 영문학과 심리학을 복수 전공했다. 이후 지난 3년간 오픈AI에서 ‘모델 정책(Model Policy)’ 분야를 구축하는 데 핵심적인 역할을 했으며, 관련 연구팀의 운영과 연구 방향 설정에 참여했다. 그녀는 GPT-4, GPT-4V, o-시리즈 추론 모델, 딥 리서치, 챗GPT 에이전트, GPT-5에 이르기까지 주요 모델들의 배포 전략과 안전 정책 수립에 관여했으며, 규칙 기반 보상(rule-based rewards) 등 AI 안전 기술의 학습 프로세스 개발에도 참여했다. 최근에는 정서적 과의존의 징후나 초기 정신적 고통의 신호에 직면했을 때 모델이 어떻게 반응해야 하는지에 대한 연구에도 집중해 왔다.

오픈AI 합류 이전에는 메타(구 페이스북)에서 근무하며 콘텐츠 배포와 알고리즘 투명성, 건강·기후 분야의 제품 무결성(product integrity), 추천 시스템의 신뢰성을 담당했다. 또한 2018년부터 2020년까지 허위정보, 사회적 양극화, 선거 관련 이슈를 다루는 커뮤니케이션 매니저로 활동한 바 있다.

한편 발로네는 “AI 분야에서 가장 중대하고 영향력 있는 문제를 다루는 두 기업의 최전선에서 배우고 기여할 수 있다는 점을 매우 뜻깊게 생각한다”며 앤트로픽 합류 소감을 밝혔다.
jihyun.lee@foundryco.com

Read More from This Article: GPT 모델 안전 정책 이끌던 안드레아 발로네, 앤트로픽 정렬 팀으로
Source: News

GPT 모델 안전 정책 이끌던 안드레아 발로네, 앤트로픽 정렬 팀으로

Related posts