LLM학습에 사용된 웹사이트


Inside the secret list of websites that make AI like ChatGPT sound smart
By Kevin Schaul, Szu Yu Chen and Nitasha Tiku, WP

웹이 만들어진 이후 30여년 이상 수많은 이용자가 데이터 생산에 참여하고 무료로 공유했기에 지금과 같은 인공지능 모델이 가능할 수 있었다. 하지만 이제는 LLM이 인터넷인 연결되는 모델 전반을 바꾸어놓고 있는지 모른다.

캐나다 온라인 뉴스법이 현재대로 통과(플랫폼이 뉴스 퍼블리셔에게 콘텐츠 비용을 지불하도록 하는 규정)된다면 페이스북은 뉴스 콘텐츠 제공을 중단한다고 말했었다. 이러한 형태의 규정은 매우 이상하다. 입장을 바꿔본다면 언론사가 식당 리뷰 기사를 작성하면 식당에 돈을 지불해야한다는 것과 비슷하다.

스택오버플로우와 레딧은 LLM 학습에 사용된 데이터와 관련해 트레이닝 비용을 청구할 것이라고 밝혔다. 과연 LLM 시대에 콘텐츠 소유권은 누가 가지게 될 것인가? 어떤 방식의 배포가 이루어질 수 있는 것일까? 사실은 이러한 질문이 정당한 것인지도 아직 확신하기 어렵다.

워싱턴 포스트는 이와 관련해 인공지능 챗봇 학습에 사용하는 데이터 세트 중 하나인 구글의 C4 (Colossal Clean Crawled Corpus) 데이터셋을 분석했다. 데이터셋은 140억개 단어로 이루어져 있으며, 웹페이지, 뉴스, 책, 위키피디아와 같은 다양한 소스를 수집했다. 가장 많은 데이터를 제공한 사이트는 구글 페이턴트, 위키피디아, 스크립드였다.

전 세계에서 발행된 특허의 텍스트를 제공하는 patents.google.com이 1위, 무료 온라인 백과사전인 위키피디아.org가 2위, 구독 전용 디지털 라이브러리인 scribd.com이 3위를 차지했습니다.

카테고리에서 뉴스 및 미디어는 3위였으며, 신뢰도가 낮은 언론 매체도 순위 내에서 발견되었다.

뉴스 및 미디어 카테고리는 전체 카테고리에서 3위를 차지했습니다. 하지만 상위 10개 사이트 중 절반이 뉴스 매체였습니다. nytimes.com이 4위, latimes.com이 6위, theguardian.com이 7위, forbes.com이 8위, huffpost.com이 9위였습니다. (워싱턴포스트닷컴이 11위로 뒤를 이었습니다.) 예술가 및 크리에이터와 마찬가지로 일부 언론사들은 기술 기업이 허가나 보상 없이 콘텐츠를 사용하는 것에 대해 비판했습니다.

한편, 뉴스가드의 독립적인 신뢰도 평가에서 낮은 순위를 차지한 언론 매체도 몇 개 발견되었습니다: 러시아 국영 선전 사이트인 RT.com(65위), 극우 뉴스와 의견으로 잘 알려진 브레이트바트닷컴(159위), 백인 우월주의와 연관된 반이민 사이트인 vdare.com(993위)이 그 예입니다.

C4는 2019년 4월을 시점으로 이루어진 웹스크레이핑으로 “평판이 좋은 사이트의 우선 순위를 정하려고 했지만, 라이선스가 있거나 저작권이 있는 콘텐츠를 피하려고 하지 않는다”라고 말했다.

LLM으로 인해 캐나다 언론사의 이상한 것처럼 보이던 모델이 그럴듯한 것처럼 보이게 될 수 있는 시대가 되는거 아닌가. 인공지능 콘텐츠의 권리에 대해서 어디까지가 누구의 소유이고 비용 지불은 어떻게 가능해질지 점차 민감한 문제가 될 것이고 많은 변화가 있을 것이다.