대형 언어 모델의 프리미엄 콘텐츠 학습

AI training depends on premium content, study finds
Axios

AI 기업들은 훈련 데이터로 무엇을 사용하는지 정확히 밝히지 않지만, Ziff Davis의 연구에 따르면 상업적인 뉴스 및 미디어 웹사이트 콘텐츠에 불균형적으로 의존하는 것으로 나타났습니다. OpenAI의 GPT-2를 훈련하기 위해 사용된 OpenWebText 데이터셋을 분석한 결과, URL의 약 10%가 연구된 15개의 프리미엄 퍼블리셔에서 나온 것으로 밝혀졌습니다. 연구는 Ziff Davis의 AI 전문 변호사 조지 우코손(George Wukoson)과 최고기술책임자 조이 포르투나(Joey Fortuna)에 의해 진행되었습니다.

Ziff Davis 역시 잡지사에서 출발했으며 News/Media Alliance(NMA) 회원사이다

코멘트

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다