Skip to content
Tiatra, LLCTiatra, LLC
Tiatra, LLC
Information Technology Solutions for Washington, DC Government Agencies
  • Home
  • About Us
  • Services
    • IT Engineering and Support
    • Software Development
    • Information Assurance and Testing
    • Project and Program Management
  • Clients & Partners
  • Careers
  • News
  • Contact
 
  • Home
  • About Us
  • Services
    • IT Engineering and Support
    • Software Development
    • Information Assurance and Testing
    • Project and Program Management
  • Clients & Partners
  • Careers
  • News
  • Contact

칼럼 | 훔치다가 망치기까지··· 생성형 AI와 인터넷 사이의 갈등

생성형 AI(genAI) 기업들이 인터넷 세상에 실질적인 피해를 입히기 시작했다.

인터넷의 주요 목적 중 하나는 과학자, 학자, 일반 대중 사이에서 자유롭고 개방적인 소통과 정보 교환을 위한 글로벌 네트워크 역할을 하고, 검열이 불가능한 자유로운 표현의 장이 되는 것이다.

(참고로 인터넷에 대한 위협 중 하나는 최근 초당파적으로 추진되고 있는 통신품위법 230조 폐지에 대한 지지다. 이 조항이 실제로 폐지될 경우 온라인상의 표현의 자유에 심각한 해를 끼칠 수 있다. 이 문제는 EFF 웹사이트에서 좀더 자세히 확인할 수 있다.)

인터넷의 목적을 가장 순수하게 표현하는 존재가 있다면 바로 오픈 액세스(OA) 웹사이트들의 세계다. 이 사이트들은 학술 정보(연구 논문, 서적, 데이터, 교육 자료 등)에 대한 무료 및 무제한 액세스를 제공한다. 오픈 액세스를 통해 사용자는 기술적 장벽 없이 콘텐츠를 얻을 수 있다. 또한, 오픈 액세스는 또 적절한 저작자 표시를 통해 사용자들이 다운로드하고, 복사하고, 배포하고, 재사용할 수 있는 법적 권한을 구현한다. 그리고 이는 더 넓은 오픈 사이언스 운동의 일부다.

그러나 오늘날 OA 사이트가 공격을 받고 있다. AI 봇 또는 AI 크롤러가 지속적으로 데이터를 스캔하여 챗봇과 관련 서비스의 훈련 데이터 세트에 추가하기 때이다. 이로 인해 OA 웹사이트와 기타 사이트의 부하와 리소스 부담이 증가하고, 서비스 중단으로 이어지고 있다.

현재 인터넷 세상에는 다양한 종류의 봇이 존재한다. 이 봇들이 생성하는 트래픽은 인간의 그것을 넘어선다. 디자인러시(DesignRush)에 따르면 봇이 현재 전체 웹 방문의 80%를 차지하고 있다. 봇 유형에는 검색 엔진 봇, SEO 및 분석 봇, 소셜 미디어 봇, 악성 봇, 웹 스크래핑 봇 등이 있다.

하지만 AI 크롤러는 가장 빠르게 성장하는 봇 유형이다. 디자인러시에 따르면, 한 회사(오픈AI)의 크롤러(GPT 봇)가 현재 전체 웹 트래픽의 약 13%를 차지하고 있고 매달 수억 건의 요청을 만들어내고 있다.

그들의 목표는 데이터를 가져와 원래의 출처를 대체하는 것이다. 예를 들어, 특정 주제에 대한 과학 논문을 찾기 위해 구글을 사용하는 행위를 대체하려 한다. AI 크롤러가 그 논문들을 가져와 여러 논문과 여러 사이트에서 조합한 새로운 “논문”을 사용자에게 제시함으로써 사용자가 출처 사이트를 무시하고 챗봇에서 정보를 얻도록 유도하는 것이다.

문제를 다소 과하게 단순화해보자면, OA 사이트에서 더 많은 데이터를 수집할수록 챗봇이 더 빠르고 사용하기 편리해진다. 그러나, 데이터 수집 자체가 OA 사이트를 더 느리고 사용하기 어렵게 만든다.

콘텐츠 취합 자체를 비판하는 글도 그간 많았지만 챗봇 업체들이 원천 콘텐츠 사이트를 압도하고 있다는 점을 언급하는 것도 중요하다. 마치 매일 DDOS 공격을 하는 형국이다. 다양한 종류의 봇이 다양한 유형의 웹사이트에 영향을 미치지만, OA 사이트에 큰 영향을 미치고 있다.

반격

클라우드플레어는 현재 대규모 언어 모델(LLM) 훈련 데이터를 의도적으로 오염시켜 웹사이트에서 허가 없이 데이터를 가져가는 AI 회사에 맞서고 있다. (이 회사는 콘텐츠 전송 네트워크, 사이버 보안, DDoS 완화, 웹 성능 최적화 서비스를 제공한다.)

클라우드플레어가 해결하는 문제는 다음과 같다. 오픈AI, 앤트로픽, 퍼플렉시티와 같은 회사들이 웹사이트에서 데이터를 수집하고, 사이트의 ‘robots.txt’ 파일(검색 엔진에 색인 금지 파일을 알려주기 위해 설계된 파일)을 무시하고 데이터를 수집한다는 비난의 목소리가 높았다. 이러한 유명 회사들 외에도, 합법적인 소유자의 허락 없이 데이터를 수집하는 소규모의 합법적이지 않은 회사들이 많다.

클라우드플레어의 솔루션은 모든 고객이 이용할 수 있는 ‘AI 미로’라는 기능이다. 이 프로그램은 들어오는 봇을 자체 특수 목적의 웹사이트로 리디렉션한다. 해당 웹사이트에는 사실은 정확하지만 관련이 없는(대상 웹사이트와 관련이 없는) AI가 생성한 정보가 엄청나게 많이 담겨 있다.

AI 미로는 봇을 운영하는 회사의 시간을 낭비하게 할 뿐 아니라, 허니팟(honeypot)의 역할도 한다. 즉 클라우드플레어는 이러한 회사들을 블랙리스트에 추가할 수 있다.

이 아이디어는 시카고 대학의 ‘나이트셰이드’(Nightshade) 프로젝트와 비슷하다. 이 프로젝트는 이미지 데이터를 오염시켜 예술가의 작품을 보호하기 위해 고안됐다. 이 프로젝트를 통해 디지털 이미지 아티스트는 나이트셰이드를 무료로 다운로드하고 작품의 픽셀을 변환할 수 있다. 사람에게는 동일한 이미지가 노출되지만, AI 모델은 사진의 모양을 완전히 잘못 인식하게 된다.

AI 크롤러를 막는 한 가지 방법은 ‘robots.txt’ 적절하게 파일을 이용하는 것이다. 그러나 앞서 언급했듯이, 그들은 종종 이 파일을 무시한다. 그래서 많은 사람들이 이를 위반하는 행위에 대해 침해 소송과 같은 처벌을 요구하고 있다.

또 다른 접근 방식은 웹 애플리케이션 방화벽(WAF)의 사용이다. WAF는 AI 크롤러를 포함한 원치 않는 트래픽을 차단하는 동시에 합법적인 사용자가 사이트에 액세스할 수 있도록 한다. 특정 AI 봇의 특징을 인식하고 차단하도록 WAF를 구성함으로써 웹사이트는 이론적으로 콘텐츠를 보호할 수 있다. 하지만 발전된 AI 크롤러는 합법적인 트래픽을 모방하거나 순환 IP 주소를 사용하여 탐지를 피할 수 있다. 이를 방지하려면 시간이 많이 걸리고 규칙과 IP 평판 목록을 자주 업데이트해야 하므로 소스 사이트에 또 다른 부담이 된다.

AI 봇의 과도한 데이터 검색을 방지하기 위해 속도 제한이 사용되기도 한다. 이 기능은 특정 기간 동안 단일 IP가 요청할 수 있는 횟수를 제한하는 기능을 포함하고 있다. 덕분에 서버 부하와 데이터 오용 위험을 줄이는 데 도움이 된다.

고급 봇 관리 솔루션도 점점 더 인기를 얻고 있다. 이러한 도구는 머신러닝과 행동 분석을 사용하여 원치 않는 AI 봇을 식별하고 차단함으로써 전통적인 방법보다 더 포괄적인 보호 기능을 제공한다.

마지막으로, 콘텐츠 제작자가 자신의 작업물이 사용되는 방식을 더 잘 제어할 수 있도록 돕는 옹호 활동과 정책 변경이 개발되고 있다.

핵심은 OA 웹사이트에 대한 AI 크롤러의 영향에 대해 뭔가 조치를 취해야 한다는 것이다. OA 웹사이트는 사람과 LLM 기반 챗봇 모두에게 인터넷에서 최고의 정보 소스를 제공한다.

콘텐츠 단순 수집이 합법적이거나 수용 가능한지에 대한 논쟁이 온라인, 법원, 정부에서 진행되고 있는 동안, 우리는 그저 방관할 수 없다. 그들은 본질적으로 소중한 출처를 방해, 공격, 분쇄하고 있기 때문이다.
dl-ciokorea@foundryco.com


Read More from This Article: 칼럼 | 훔치다가 망치기까지··· 생성형 AI와 인터넷 사이의 갈등
Source: News

Category: NewsMarch 28, 2025
Tags: art

Post navigation

PreviousPrevious post:AI culture war: Hidden bias in training models may push political propagandaNextNext post:Nueve tendencias de CRM para 2025: la IA redefine la ecuación del cliente

Related posts

Barb Wixom and MIT CISR on managing data like a product
May 30, 2025
Avery Dennison takes culture-first approach to AI transformation
May 30, 2025
The agentic AI assist Stanford University cancer care staff needed
May 30, 2025
Los desafíos de la era de la ‘IA en todas partes’, a fondo en Data & AI Summit 2025
May 30, 2025
“AI 비서가 팀 단위로 지원하는 효과”···퍼플렉시티, AI 프로젝트 10분 완성 도구 ‘랩스’ 출시
May 30, 2025
“ROI는 어디에?” AI 도입을 재고하게 만드는 실패 사례
May 30, 2025
Recent Posts
  • Barb Wixom and MIT CISR on managing data like a product
  • Avery Dennison takes culture-first approach to AI transformation
  • The agentic AI assist Stanford University cancer care staff needed
  • Los desafíos de la era de la ‘IA en todas partes’, a fondo en Data & AI Summit 2025
  • “AI 비서가 팀 단위로 지원하는 효과”···퍼플렉시티, AI 프로젝트 10분 완성 도구 ‘랩스’ 출시
Recent Comments
    Archives
    • May 2025
    • April 2025
    • March 2025
    • February 2025
    • January 2025
    • December 2024
    • November 2024
    • October 2024
    • September 2024
    • August 2024
    • July 2024
    • June 2024
    • May 2024
    • April 2024
    • March 2024
    • February 2024
    • January 2024
    • December 2023
    • November 2023
    • October 2023
    • September 2023
    • August 2023
    • July 2023
    • June 2023
    • May 2023
    • April 2023
    • March 2023
    • February 2023
    • January 2023
    • December 2022
    • November 2022
    • October 2022
    • September 2022
    • August 2022
    • July 2022
    • June 2022
    • May 2022
    • April 2022
    • March 2022
    • February 2022
    • January 2022
    • December 2021
    • November 2021
    • October 2021
    • September 2021
    • August 2021
    • July 2021
    • June 2021
    • May 2021
    • April 2021
    • March 2021
    • February 2021
    • January 2021
    • December 2020
    • November 2020
    • October 2020
    • September 2020
    • August 2020
    • July 2020
    • June 2020
    • May 2020
    • April 2020
    • January 2020
    • December 2019
    • November 2019
    • October 2019
    • September 2019
    • August 2019
    • July 2019
    • June 2019
    • May 2019
    • April 2019
    • March 2019
    • February 2019
    • January 2019
    • December 2018
    • November 2018
    • October 2018
    • September 2018
    • August 2018
    • July 2018
    • June 2018
    • May 2018
    • April 2018
    • March 2018
    • February 2018
    • January 2018
    • December 2017
    • November 2017
    • October 2017
    • September 2017
    • August 2017
    • July 2017
    • June 2017
    • May 2017
    • April 2017
    • March 2017
    • February 2017
    • January 2017
    Categories
    • News
    Meta
    • Log in
    • Entries feed
    • Comments feed
    • WordPress.org
    Tiatra LLC.

    Tiatra, LLC, based in the Washington, DC metropolitan area, proudly serves federal government agencies, organizations that work with the government and other commercial businesses and organizations. Tiatra specializes in a broad range of information technology (IT) development and management services incorporating solid engineering, attention to client needs, and meeting or exceeding any security parameters required. Our small yet innovative company is structured with a full complement of the necessary technical experts, working with hands-on management, to provide a high level of service and competitive pricing for your systems and engineering requirements.

    Find us on:

    FacebookTwitterLinkedin

    Submitclear

    Tiatra, LLC
    Copyright 2016. All rights reserved.