생성인공지능과 저작권


Authors file a lawsuit against OpenAI for unlawfully ‘ingesting’ their books
Guardian

언어모델 기반의 생성 인공지능 활용은 저작권 관련 다양한 논쟁을 불러오고 있다. 그리고 학습을 위해 데이터를 수집하여 활용하는 관행에 대한 부분까지 논쟁이 되고 있다. 관련된 첫 소송이라는 이야기도 있길래(정확하지는 않지만) 기록용으로 남겨놓는다.

… 아와드와 트렘블레이는 챗봇이 소설의 “매우 정확한 요약”을 생성했기 때문에 저작권이 있는 자신들의 책이 불법적으로 “수집”되어 ChatGPT를 “훈련하는 데 사용”되었다고 소장에서 주장하고 있습니다. 소송에는 샘플 요약본이 증거물로 첨부되어 있습니다.

소송은 2020년 OpenAI 논문을 가리키며 ChatGPT를 교육하는 데 사용된 데이터의 15%가 2개의 인터넷 기반 책 말뭉치에서 나왔다고 지적했다. 이러한 논쟁에는 저작권에 공정사용이라는 부분이 어떻게 정의되어 있는지 각국의 법률에 따라 다를 것 같다. 기사에서는 “법원이 이러한 방식으로 저작권 자료를 사용하는 것을 ‘공정 사용’으로 볼 것인지, 아니면 단순한 무단 복제로 볼 것인지에 달려 있다고 말합니다.”라는 언급이 있다.

이러한 논쟁으로 인해 인터넷 데이터 스크래이핑 관행에 대해서도 다시 이야기가 되고 있다. 구글은 인공지능 학습을 위해 데이터를 수집한다는 사실을 두 번이나 동의하게 했고, 개인보호 정책을 조용히 업데이트 했다고 한다. 트위터는 일시적으로 속도를 제한하여 데이터 수집을 막고자 시도했다.

데이터 스크랩 관련 논의 역시 공정 사용과 관련되어 있는데, 최근 생성 인공지능 저작권 관련 논의는 대체 어떤 방향으로 나아가게 될지 감도 잘 오지 않는다. 언젠가 정리가 되겠지만 그 이전까지는 혼란이 반복될 듯 하다.