OSI가 오픈소스 AI 시스템을 정확히 정의하는 표준을 만들기 위해 1년 동안 진행한 글로벌 커뮤니티 이니셔티브의 결과를 지난 28일 발표했다.
노스캐롤라이나주 롤리에서 열린 ‘올 씽스 오픈(All Things Open) 2024’ 컨퍼런스에서 OSI는 ‘오픈소스 AI 정의(OSAID) 버전 1.0’를 공개하며 “오픈소스 정의가 소프트웨어 생태계에서 해왔던 것처럼 허가가 필요 없고, 실용적이며 단순화된 협업을 재창조할 수 있는 원칙을 AI 실무자를 위해 확립하는 프로젝트의 첫 번째 안정 버전”이라고 밝혔다.
마이크로소프트(Microsoft), 구글(Google), 아마존(Amazon), 메타(Meta), 인텔(Intel), 삼성(Samsung) 등 기업의 리더와 모질라 재단(Mozilla Foundation), 리눅스 재단(Linux Foundation), 아파치 소프트웨어 재단(Apache Software Foundation), UN 국제전기통신연합을 포함한 25개 이상의 조직이 공동 설계 과정에 참여한 이 문서는 이미 전 세계 조직으로부터 지지를 받고 있다.
스탠포드대학교 파운데이션 모델 연구센터의 센터장 퍼시 리앙은 성명에서 “데이터에 대한 제약으로 인해 제대로 된 오픈소스 정의를 내리기는 어렵지만, OSI 버전 1.0 정의가 최소한 데이터 처리를 위한 전체 코드(모델 품질의 주요 동인)를 오픈소스로 요구한다는 점을 기쁘게 생각한다”라고 밝혔다. 그는 “핵심은 세부 사항에 있기 때문에, 이 정의를 자체 모델에 적용하는 구체적인 사례가 나온 후에 더 많은 의견을 제시할 수 있을 것”이라고 덧붙였다.
OSI는 자사 방법론이 초기 목적에 부합하는 표준을 만들어냈다고 자신했다.
OSI 이사회 의장인 카를로 피아나는 “오픈소스 AI 정의 1.0으로 이어진 공동 설계 과정은 잘 개발됐고 철저했으며, 포용적이고 공정했다. 이사회가 제시한 원칙을 준수했으며, OSI 리더십과 직원들이 우리 지침을 충실히 따랐다. 이사회는 이 과정을 통해 오픈소스 정의와 자유 소프트웨어 정의에 명시된 기준을 충족하는 결과를 만들어냈다고 확신하며, OSI가 이 정의를 통해 전체 산업에서 의미 있고 실용적인 오픈소스 지침을 제공할 수 있는 위치에 서게 된 것에 매우 고무적이다”라고 강조했다.
오픈소스 AI 시스템의 4가지 기준
오픈소스 AI가 되려면 시스템이 자유 소프트웨어 정의(Free Software Definition)에서 파생된 4가지 기준을 충족해야 한다고 명시됐다. OSAID는 다음과 같이 설명하고 있다.
AI 시스템은 다음과 같은 자유를 부여하는 조건과 방식으로 제공돼야 한다.
• 허가를 구할 필요 없이 어떤 목적으로든 시스템을 사용할 수 있다.
• 시스템의 작동 방식을 연구하고 구성 요소를 검사할 수 있다.
• 출력을 변경하는 것을 포함하여 어떤 목적으로든 시스템을 수정할 수 있다.
• 수정 여부와 관계없이 다른 사람이 어떤 목적으로든 시스템을 공유할 수 있다.
OSAID는 “이 자유는 완전한 기능을 갖춘 시스템과 시스템의 개별 요소 모두에 적용된다. 자유를 행사하기 위한 전제 조건은 시스템을 수정하기 위해 권장되는 양식에 액세스할 권한을 갖는 것이다”라고 언급했다.
또한 OSAID는 머신러닝 시스템을 수정할 때 권장되는 양식을 설명하며, 포함해야 할 데이터 정보, 코드, 매개변수를 명시했다.
그러나 OSAID는 “오픈소스 AI 정의는 모델 매개변수가 모든 사람에게 자유롭게 제공되도록 보장하는 특정 법적 메커니즘을 요구하지 않는다. 본질적으로 자유로울 수도 있고, 자유를 보장하기 위해 라이선스 또는 다른 법적 수단이 필요할 수도 있다. 법률 체계가 오픈소스 AI 시스템을 다룰 기회가 많아지면 더 명확해질 수 있다”라고 설명했다.
자체적인 오픈소스 AI 규정을 갖고 있는 넥스트클라우드(Nextcloud)도 OSAID를 지지하며, 이를 자사의 규정에 통합할 계획이라고 언급했다. 넥스트클라우드의 CEO이자 설립자인 프랭크 칼리체크는 “AI 솔루션 사용자는 투명성과 통제권을 누릴 자격이 있다. 우리가 2023년 초에 윤리적 AI 등급을 도입한 이유다. 이제 기술 대기업들이 오픈소스 AI라는 용어를 악용하려 하는 모습이 목격되고 있다. 사용자와 시장을 보호하기 위해 커뮤니티에서 오픈소스 AI에 대한 명확한 정의를 만드는 일을 전적으로 지지한다”라고 밝혔다.
관련 질문 및 우려 사항
한편 인포테크 리서치 그룹의 수석 연구 책임자인 브라이언 잭슨은 몇 가지 우려 사항을 언급했다.
그는 “오픈소스 AI 표준의 개요를 읽으면서 몇 가지 중요한 질문이 떠올랐다. OSI의 표준은 명확하고 이전의 오픈소스 소프트웨어 공개 표준과 일관된다. AI에는 전통적인 오픈소스 소프트웨어 라이선스가 다루지 않는 훈련 데이터, 모델 가중치, 새로운 아키텍처 등 몇 가지 주요한 차이점이 있기에 표준이 필요하다”라고 말했다.
잭슨은 의료 데이터처럼 법적으로 공개가 불가능한 데이터도 오픈소스가 될 수 있다고 언급했다. OSAID가 학습 데이터의 비공개를 허용하기 때문이다. 그는 “맥락은 이해하지만, 학습 데이터에 저작권 보호 콘텐츠가 포함되는 문제를 해결하지 못한다”라고 지적했다.
또한 그는 딥페이크나 가짜 누드 이미지를 생성하는 ‘누디파이’ 앱과 같은 오픈소스 AI로 인해 발생할 수 있는 피해도 우려했다.
잭슨은 “우리는 이미 오픈소스 AI로 인한 피해 사례를 목격했다”라고 덧붙였다. 그는 “아동 성 착취물(CSAM)은 오픈소스 AI가 악의적으로 사용되는 대표 사례다. 인터넷 감시 재단은 다크웹 포럼에서 이런 자료의 거래 활동이 증가하고 있으며, 제작자들이 더 정확한 결과를 얻기 위해 오픈소스 이미지 생성 모델 사용을 선호한다고 보고한 바 있다. 오픈소스 AI를 사용한 사기도 문제다. 이런 모델은 더 설득력 있는 딥페이크 제작, 피싱 메시지 맞춤화, 취약점이 있는 사용자 자동 검색에 활용되도록 수정될 가능성이 있다”라고 말했다.
반면 공동 설계자들의 우려는 크지 않았다. 모질라에서 AI 전략을 이끄는 아야 브데이르는 “새로운 정의는 오픈소스 모델이 ‘숙련된 사람이 동일하거나 유사한 데이터를 사용해 실질적으로 동등한 시스템을 재현할 수 있을’ 만큼의 학습 데이터 정보를 제공하도록 요구한다. 이는 현재의 독점 또는 표면적인 오픈소스 모델보다 더 진전된 조치다. 이는 AI 학습 데이터를 다루는 작업의 복잡성을 해결하려는 출발점이다. 다시 말해 전체 데이터셋 공유의 어려움을 인정하면서도 개방형 데이터셋을 AI 생태계의 더 일반적인 부분으로 만들기 위한 노력이다. 오픈소스 AI에서 학습 데이터와 관련한 이 관점이 완벽하지는 않겠지만, 실제로 어떤 모델 제작자도 충족하지 못할 이상적이고 순수한 종류의 표준을 고집하면 오히려 역효과를 낳을 수 있다”라고 설명했다.
OSI 자체는 OSAID 버전 1.0에 만족하고 있으며, 이를 향후 작업의 출발점으로 보고 있다.
OSI 총괄 책임자인 스테파노 마풀리는 성명을 통해 “OSAID 버전 1.0이 나오기까지 OSI 커뮤니티는 새로운 도전이 가득한 어려운 여정을 거쳤다. 서로 다른 의견과 미개척 기술 영역, 그리고 때로는 열띤 토론이 있었지만, 그 결과물은 2년간의 과정을 시작할 때 설정한 기대치에 부합한다. 더 넓은 오픈소스 커뮤니티와 함께 OSAID 버전 1.0을 이해하고 적용할 수 있는 지식을 개발하면서 점차 정의를 개선해 나가기 위해 지속적으로 노력하겠다는 첫걸음이다”라고 밝혔다.
[email protected]
Read More from This Article: “표준을 향한 첫걸음” OSI, 첫 번째 ‘오픈소스 AI 정의’ 발표
Source: News