생성형 AI(genAI) 기업들이 인터넷 세상에 실질적인 피해를 입히기 시작했다.
인터넷의 주요 목적 중 하나는 과학자, 학자, 일반 대중 사이에서 자유롭고 개방적인 소통과 정보 교환을 위한 글로벌 네트워크 역할을 하고, 검열이 불가능한 자유로운 표현의 장이 되는 것이다.
(참고로 인터넷에 대한 위협 중 하나는 최근 초당파적으로 추진되고 있는 통신품위법 230조 폐지에 대한 지지다. 이 조항이 실제로 폐지될 경우 온라인상의 표현의 자유에 심각한 해를 끼칠 수 있다. 이 문제는 EFF 웹사이트에서 좀더 자세히 확인할 수 있다.)
인터넷의 목적을 가장 순수하게 표현하는 존재가 있다면 바로 오픈 액세스(OA) 웹사이트들의 세계다. 이 사이트들은 학술 정보(연구 논문, 서적, 데이터, 교육 자료 등)에 대한 무료 및 무제한 액세스를 제공한다. 오픈 액세스를 통해 사용자는 기술적 장벽 없이 콘텐츠를 얻을 수 있다. 또한, 오픈 액세스는 또 적절한 저작자 표시를 통해 사용자들이 다운로드하고, 복사하고, 배포하고, 재사용할 수 있는 법적 권한을 구현한다. 그리고 이는 더 넓은 오픈 사이언스 운동의 일부다.
그러나 오늘날 OA 사이트가 공격을 받고 있다. AI 봇 또는 AI 크롤러가 지속적으로 데이터를 스캔하여 챗봇과 관련 서비스의 훈련 데이터 세트에 추가하기 때이다. 이로 인해 OA 웹사이트와 기타 사이트의 부하와 리소스 부담이 증가하고, 서비스 중단으로 이어지고 있다.
현재 인터넷 세상에는 다양한 종류의 봇이 존재한다. 이 봇들이 생성하는 트래픽은 인간의 그것을 넘어선다. 디자인러시(DesignRush)에 따르면 봇이 현재 전체 웹 방문의 80%를 차지하고 있다. 봇 유형에는 검색 엔진 봇, SEO 및 분석 봇, 소셜 미디어 봇, 악성 봇, 웹 스크래핑 봇 등이 있다.
하지만 AI 크롤러는 가장 빠르게 성장하는 봇 유형이다. 디자인러시에 따르면, 한 회사(오픈AI)의 크롤러(GPT 봇)가 현재 전체 웹 트래픽의 약 13%를 차지하고 있고 매달 수억 건의 요청을 만들어내고 있다.
그들의 목표는 데이터를 가져와 원래의 출처를 대체하는 것이다. 예를 들어, 특정 주제에 대한 과학 논문을 찾기 위해 구글을 사용하는 행위를 대체하려 한다. AI 크롤러가 그 논문들을 가져와 여러 논문과 여러 사이트에서 조합한 새로운 “논문”을 사용자에게 제시함으로써 사용자가 출처 사이트를 무시하고 챗봇에서 정보를 얻도록 유도하는 것이다.
문제를 다소 과하게 단순화해보자면, OA 사이트에서 더 많은 데이터를 수집할수록 챗봇이 더 빠르고 사용하기 편리해진다. 그러나, 데이터 수집 자체가 OA 사이트를 더 느리고 사용하기 어렵게 만든다.
콘텐츠 취합 자체를 비판하는 글도 그간 많았지만 챗봇 업체들이 원천 콘텐츠 사이트를 압도하고 있다는 점을 언급하는 것도 중요하다. 마치 매일 DDOS 공격을 하는 형국이다. 다양한 종류의 봇이 다양한 유형의 웹사이트에 영향을 미치지만, OA 사이트에 큰 영향을 미치고 있다.
반격
클라우드플레어는 현재 대규모 언어 모델(LLM) 훈련 데이터를 의도적으로 오염시켜 웹사이트에서 허가 없이 데이터를 가져가는 AI 회사에 맞서고 있다. (이 회사는 콘텐츠 전송 네트워크, 사이버 보안, DDoS 완화, 웹 성능 최적화 서비스를 제공한다.)
클라우드플레어가 해결하는 문제는 다음과 같다. 오픈AI, 앤트로픽, 퍼플렉시티와 같은 회사들이 웹사이트에서 데이터를 수집하고, 사이트의 ‘robots.txt’ 파일(검색 엔진에 색인 금지 파일을 알려주기 위해 설계된 파일)을 무시하고 데이터를 수집한다는 비난의 목소리가 높았다. 이러한 유명 회사들 외에도, 합법적인 소유자의 허락 없이 데이터를 수집하는 소규모의 합법적이지 않은 회사들이 많다.
클라우드플레어의 솔루션은 모든 고객이 이용할 수 있는 ‘AI 미로’라는 기능이다. 이 프로그램은 들어오는 봇을 자체 특수 목적의 웹사이트로 리디렉션한다. 해당 웹사이트에는 사실은 정확하지만 관련이 없는(대상 웹사이트와 관련이 없는) AI가 생성한 정보가 엄청나게 많이 담겨 있다.
AI 미로는 봇을 운영하는 회사의 시간을 낭비하게 할 뿐 아니라, 허니팟(honeypot)의 역할도 한다. 즉 클라우드플레어는 이러한 회사들을 블랙리스트에 추가할 수 있다.
이 아이디어는 시카고 대학의 ‘나이트셰이드’(Nightshade) 프로젝트와 비슷하다. 이 프로젝트는 이미지 데이터를 오염시켜 예술가의 작품을 보호하기 위해 고안됐다. 이 프로젝트를 통해 디지털 이미지 아티스트는 나이트셰이드를 무료로 다운로드하고 작품의 픽셀을 변환할 수 있다. 사람에게는 동일한 이미지가 노출되지만, AI 모델은 사진의 모양을 완전히 잘못 인식하게 된다.
AI 크롤러를 막는 한 가지 방법은 ‘robots.txt’ 적절하게 파일을 이용하는 것이다. 그러나 앞서 언급했듯이, 그들은 종종 이 파일을 무시한다. 그래서 많은 사람들이 이를 위반하는 행위에 대해 침해 소송과 같은 처벌을 요구하고 있다.
또 다른 접근 방식은 웹 애플리케이션 방화벽(WAF)의 사용이다. WAF는 AI 크롤러를 포함한 원치 않는 트래픽을 차단하는 동시에 합법적인 사용자가 사이트에 액세스할 수 있도록 한다. 특정 AI 봇의 특징을 인식하고 차단하도록 WAF를 구성함으로써 웹사이트는 이론적으로 콘텐츠를 보호할 수 있다. 하지만 발전된 AI 크롤러는 합법적인 트래픽을 모방하거나 순환 IP 주소를 사용하여 탐지를 피할 수 있다. 이를 방지하려면 시간이 많이 걸리고 규칙과 IP 평판 목록을 자주 업데이트해야 하므로 소스 사이트에 또 다른 부담이 된다.
AI 봇의 과도한 데이터 검색을 방지하기 위해 속도 제한이 사용되기도 한다. 이 기능은 특정 기간 동안 단일 IP가 요청할 수 있는 횟수를 제한하는 기능을 포함하고 있다. 덕분에 서버 부하와 데이터 오용 위험을 줄이는 데 도움이 된다.
고급 봇 관리 솔루션도 점점 더 인기를 얻고 있다. 이러한 도구는 머신러닝과 행동 분석을 사용하여 원치 않는 AI 봇을 식별하고 차단함으로써 전통적인 방법보다 더 포괄적인 보호 기능을 제공한다.
마지막으로, 콘텐츠 제작자가 자신의 작업물이 사용되는 방식을 더 잘 제어할 수 있도록 돕는 옹호 활동과 정책 변경이 개발되고 있다.
핵심은 OA 웹사이트에 대한 AI 크롤러의 영향에 대해 뭔가 조치를 취해야 한다는 것이다. OA 웹사이트는 사람과 LLM 기반 챗봇 모두에게 인터넷에서 최고의 정보 소스를 제공한다.
콘텐츠 단순 수집이 합법적이거나 수용 가능한지에 대한 논쟁이 온라인, 법원, 정부에서 진행되고 있는 동안, 우리는 그저 방관할 수 없다. 그들은 본질적으로 소중한 출처를 방해, 공격, 분쇄하고 있기 때문이다.
[email protected]
Read More from This Article: 칼럼 | 훔치다가 망치기까지··· 생성형 AI와 인터넷 사이의 갈등
Source: News