[카테고리:] IT

LLM학습에 사용된 웹사이트

Inside the secret list of websites that make AI like ChatGPT sound smart
By Kevin Schaul, Szu Yu Chen and Nitasha Tiku, WP

웹이 만들어진 이후 30여년 이상 수많은 이용자가 데이터 생산에 참여하고 무료로 공유했기에 지금과 같은 인공지능 모델이 가능할 수 있었다. 하지만 이제는 LLM이 인터넷인 연결되는 모델 전반을 바꾸어놓고 있는지 모른다.

캐나다 온라인 뉴스법이 현재대로 통과(플랫폼이 뉴스 퍼블리셔에게 콘텐츠 비용을 지불하도록 하는 규정)된다면 페이스북은 뉴스 콘텐츠 제공을 중단한다고 말했었다. 이러한 형태의 규정은 매우 이상하다. 입장을 바꿔본다면 언론사가 식당 리뷰 기사를 작성하면 식당에 돈을 지불해야한다는 것과 비슷하다.

스택오버플로우와 레딧은 LLM 학습에 사용된 데이터와 관련해 트레이닝 비용을 청구할 것이라고 밝혔다. 과연 LLM 시대에 콘텐츠 소유권은 누가 가지게 될 것인가? 어떤 방식의 배포가 이루어질 수 있는 것일까? 사실은 이러한 질문이 정당한 것인지도 아직 확신하기 어렵다.

워싱턴 포스트는 이와 관련해 인공지능 챗봇 학습에 사용하는 데이터 세트 중 하나인 구글의 C4 (Colossal Clean Crawled Corpus) 데이터셋을 분석했다. 데이터셋은 140억개 단어로 이루어져 있으며, 웹페이지, 뉴스, 책, 위키피디아와 같은 다양한 소스를 수집했다. 가장 많은 데이터를 제공한 사이트는 구글 페이턴트, 위키피디아, 스크립드였다.

전 세계에서 발행된 특허의 텍스트를 제공하는 patents.google.com이 1위, 무료 온라인 백과사전인 위키피디아.org가 2위, 구독 전용 디지털 라이브러리인 scribd.com이 3위를 차지했습니다.

카테고리에서 뉴스 및 미디어는 3위였으며, 신뢰도가 낮은 언론 매체도 순위 내에서 발견되었다.

뉴스 및 미디어 카테고리는 전체 카테고리에서 3위를 차지했습니다. 하지만 상위 10개 사이트 중 절반이 뉴스 매체였습니다. nytimes.com이 4위, latimes.com이 6위, theguardian.com이 7위, forbes.com이 8위, huffpost.com이 9위였습니다. (워싱턴포스트닷컴이 11위로 뒤를 이었습니다.) 예술가 및 크리에이터와 마찬가지로 일부 언론사들은 기술 기업이 허가나 보상 없이 콘텐츠를 사용하는 것에 대해 비판했습니다.

한편, 뉴스가드의 독립적인 신뢰도 평가에서 낮은 순위를 차지한 언론 매체도 몇 개 발견되었습니다: 러시아 국영 선전 사이트인 RT.com(65위), 극우 뉴스와 의견으로 잘 알려진 브레이트바트닷컴(159위), 백인 우월주의와 연관된 반이민 사이트인 vdare.com(993위)이 그 예입니다.

C4는 2019년 4월을 시점으로 이루어진 웹스크레이핑으로 “평판이 좋은 사이트의 우선 순위를 정하려고 했지만, 라이선스가 있거나 저작권이 있는 콘텐츠를 피하려고 하지 않는다”라고 말했다.

LLM으로 인해 캐나다 언론사의 이상한 것처럼 보이던 모델이 그럴듯한 것처럼 보이게 될 수 있는 시대가 되는거 아닌가. 인공지능 콘텐츠의 권리에 대해서 어디까지가 누구의 소유이고 비용 지불은 어떻게 가능해질지 점차 민감한 문제가 될 것이고 많은 변화가 있을 것이다.

10월 29, 2025
저는 인공지능 모델로서

A search for 'site:https://t.co/cKe2hcgXkR "as an AI language model"' yields some fun results! pic.twitter.com/hOtMyKzHfi
— Daniel 🦋 (@d_feldman) April 21, 2023

10월 29, 2025
Auto-GPT

Massive Update for Auto-GPT: Code Execution! 🤖💻

Auto-GPT is now able to write it's own code using #gpt4 and execute python scripts!

This allows it to recursively debug, develop and self-improve… 🤯 👇 pic.twitter.com/GEkMb1LyxV
— Toran Bruce Richards (@SigGravitas) April 1, 2023

Auto-GPT 활용하여 자체 코드를 작성하고 스크립트를 실행하는 사례. 이를 통해 디버깅도 가능하다. GPT를 활용하는 프로젝트가 더욱 다양해질 것 같고, 이를 활용하는 아이디어도 고민해볼만 하지 않을까.

10월 29, 2025
클락스월드 신규 투고 중단

공상과학 출판사 중 하나인 클락스월드(Clarkesworld)는 새로운 원고 투고를 금지했다. 인공지능으로 작성한 원고가 기하급수적으로 투고되었기 때문이다. 아마도 이 잡지가 가지고 있는 독특한 수익모델도 기여한 측면이 있지 않을까 싶은데, 잡지는 단어당 10~12센트 가량의 원고료를 지불한다고 한다. 아래는 편집자가 직접 만들어서 올린 투고건수 그래프 (출처)

이 잡지에만 해당하는 일은 아니다.

클라크스월드의 상황은 독특하지 않습니다. 사이언스, 네이처를 비롯한 여러 학술지에서는 이 기술이 논문의 저자로 등재된 후 ChatGPT 사용을 제한하는 정책을 도입했습니다. Nature의 편집자들은 정책을 설명하는 게시물에서 “모든 저작자 표시에는 저작물에 대한 책임이 수반되며, AI 도구는 그러한 책임을 질 수 없습니다.”라고 썼습니다.

Clarkesworld’s situation is not unique. Several academic journals, including Science and Nature, have instituted policies restricting the use of ChatGPT after the technology was listed as an author on papers. “Any attribution of authorship carries with it accountability for the work, and AI tools cannot take such responsibility,” Nature’s editors wrote in a post outlining their policy.
Flooded with AI-created content, a sci-fi magazine suspends submissions

기존 창작 영역이 가지고 있던 해자가 모두 사라지면서 어떤 방식으로 수익화를 하고 비즈니스를 만들어나가야하는지에 대한 부분이 완전히 새롭게 바뀌는 시대가 될 것이다.

10월 29, 2025
마이크로소프트의 미래

How AI is making Microsoft cool
Axios, by Ina Fried

크게 중요한 이야기는 아닐 수도 있지만, 마이크로소프트가 최근에 주목을 받는 것 같아서 남기는 글이다. 마이크로소프트는 OpenAI에 수십억 달러를 투자했으며, 자사 제품 전반에 걸쳐 Dall-E 2 및 ChatGPT와 같은 도구를 통해 Bing과 같은 주력 제품을 강화하고 Office 및 Windows와 같은 프랜차이즈에 활기를 불어넣을 것이라고 기대받고 있다.

최근 몇 년 동안 멋진 요소 없이도 Microsoft의 시장 입지가 강화되었습니다. 이 회사는 대규모 소프트웨어 및 서버 비즈니스를 클라우드 컴퓨팅과 구독을 통해 더 크고 예측 가능한 현금 흐름으로 전환하는 데 성공했습니다. Microsoft는 최근 몇 년 동안 소비자 기술 분야에서 그다지 주목받지 못했지만, 여전히 Xbox와 Surface PC 사업의 일부를 포함하여 중요한 소비자 대상 프랜차이즈를 보유하고 있습니다.

That has bolstered Microsoft’s market position in recent years, even without the cool factor. The company has managed to turn its large software and server businesses into even bigger, more predictable cash flows from cloud computing and subscriptions. Although Microsoft has been less of a factor in consumer tech in recent years, it still has some important consumer-facing franchises, including Xbox as well as parts of its Surface PC business.

내가 환율 상승했을 때 해외 주식 일부를 매도하면서 여전히 보유하고 있는 기업 중 하나다(물론 주가가 많이 떨어지기는 했지만). 개인적으로 AI 활용 제품이 검색엔진 시장에서 구글 독점을 얼마나 위협할지 사실 확신은 가지 않지만, 새로운 UI로 인해 이용자가 다양한 서비스를 경험해보게 만드는 정도까지는 가능하지 않을까 싶다.

그래서 내가 마이크로소프트를 팔지 않고 가지고 있는 이유는 사실 인공지능 때문이라기보다는 회사 주요 제품이 좋아지는게 눈에 보이기 때문이다. 아는 개발자분도 마이크로소프트에 대해서 굉장히 긍정적으로 언급한 바 있다. 물론 이런 것이 모두 주가에 반영되는 것은 아니라는 점, 그리고 미국에서 마이크로소프트는 배당주 같은 느낌이라는 점은 고려해야겠지만 말이다.

10월 29, 2025
생성 인공지능 제품화

아직까지도 여러가지 용어가 혼란스럽게 사용되고 있지만 Generative ML을 활용한 기술이 빠르게 실제 제품으로 출시되고 있다. 온라인에서 발견한 몇 가지 사례들이다.

인공지능 배우를 통해 비디오 영상 만들기 https://www.colossyan.com/
원하는 스타일의 아트워크 만들기 jasper.ai/art
업무용 개인화콘텐츠 만들기 https://www.typeface.ai/
콘텐츠 제작과정 전반 간소화 https://simplified.com/

빠르게 제품화가 이루어진다는 사실은 크게 놀라운 일은 아니다. 어떤 의미에서는 진입 장벽이 높지 않다는 뜻이고, 앞으로 더 많은 종류의 제품이 등장함에 따라 자연스럽게 사라지는 제품도 많아질 것이다. 특히, 플랫폼 사업자들이 자체 서비스에 이러한 기능을 통합시키게 된다면 특별한 차별성이 없는 제품은 살아남기 어렵게 될 것이다.

제품을 살펴보면 알 수 있듯이 대부분 이러한 기술이 콘텐츠 창작을 위한 도구 또는 개인화 맞춤 도구로 사용될 것으로 보인다. 어려운 일이라기보다는 귀찮던 일들이 많은 부분 해결될 수 있을 것이다.

10월 29, 2025
생성 인공지능 기업 투자급증

최근 몇 주 사이에 생성 인공지능 관련 회사에 대한 투자가 이어졌다. Stable AI는 40억 달러의 투자 자금을 조달했고, Anthropic은 41억 달러, Character.ai는 10억 달러의 자금을 받았다. 기업이 투자 받았다는 건 크게 관심을 가지는 뉴스는 아나지만 최근 이루어지는 일련의 펀딩은 마치 ML이 처음 등장하던 시기 VC자금 투자되던걸 떠올리게 한다.

생성 인공지능과 관련해서 이야기되는 몇 가지 주제들이 있다. 과연 이러한 생성 인공지능 모델이 범용 인공지능(Artificial General Intelligence)을 가능하게 할것인지, 할루시네이션(hallucination)이라고 말하는 현상을 제거할 수 있을지, 대규모 언어모델 기반의 생성 인공지능이 비즈니스 해자를 가질 수 있는지.

마지막에 언급한 주제와 관련해서 실제 생성 인공지능 기술은 빠르게 소비자 제품으로 연결되고 있는 것 같다. 마이크로소프트는 CRM / ERP 부분에 Copilot을 제공하며 비즈니스 라인에 차세대 인공지능을 통합하려는 시도를 하고 있으며, 세일즈포스도 비슷하게 CRM용 생성 인공지능 아인슈타인 GPT를 발표했다.

제품 전반에 생성 인공지능 기술을 통합해야 한다는 압박을 많이 느끼고 있는 것 같은 모습이다. 플랫폼러 보도에 관한 엑시오스 기사가 이러한 내용을 보도하고 있다.

플랫폼러가 입수한 오디오에 따르면, 마이크로소프트 부사장 존 몽고메리는 조직 개편 당시 회의에서 팀원들에게 “[최고 기술 책임자] 케빈 [스콧]과 [CEO] 사티아 [나델라]는 최신 오픈AI 모델과 그 뒤를 잇는 모델을 매우 빠른 속도로 고객의 손에 넘겨야 한다는 압박이 매우 높습니다.”라고 말했다고 플랫폼러는 전했습니다. 2020년 구글은 회사의 알고리즘과 관행에 의문을 제기했다는 이유로 해고된 AI 윤리 연구원 팀닛 게브루를 강제 해고했습니다. 몇 달에 걸쳐 해당 팀의 다른 많은 직원이 그만두거나 해고되었습니다.
Platformer reported Monday that Microsoft has disbanded an Ethics and Society team within its responsible AI team. An October reorganization had already moved most workers into product teams.
“The pressure from [chief technology officer] Kevin [Scott] and [CEO] Satya [Nadella] is very very high to take these most recent OpenAI models and the ones that come after them and move them into customers’ hands at a very high speed,” Microsoft vice president John Montgomery told the team members at a meeting at the time of the reorganization, per audio obtained by Platformer. In 2020 Google forced out AI ethics researcher Timnit Gebru, who says she was fired for raising questions about the company’s algorithms and practices. Over several months a number of other workers on that team either quit or were fired.
Microsoft, Google race to bring generative AI to the office

생각하는 것보다 빠르게 열기가 식지 않을까. 제품에 빠른 속도로 통합되면서 자연스럽게 받아들이는 시기가 금방 오게 되지 않을까. 이러한 인공지능 사용으로 인한 위험을 관리할 기능이 없는 기업이 더 많기에 발생하는 문제들은 많을 수 있을 것 같다. 개인의 경우 이러한 위험은 낮을 수 있지만 윤리와 관련된 문제는 계속해서 이야기되지 않을까.

10월 29, 2025
이탈리아 ChatGPT 금지

Italian privacy regulator bans ChatGPT
by Clothilde Goujard, POLITICO

이탈리아 개인정보 보고 규제 기관이 개인정보 침해를 이유로 ChatGPT 새로운 버전 릴리즈를 일시 중단할 것을 요청했다고 한다. 이유는 “알고리즘을 훈련하기 위해 개인 데이터의 대량 수집 및 저장”을 정당화하는 법적 근거가 부족하다는 이유이다.

ChatGPT도 지난 주 데이터 유출로 사용자 대화와 사용자의 지불 정보를 노출했다고 이탈리아 당국이 밝혔습니다. OpenAI는 사용자의 연령을 확인하지 않으며 “미성년자는 발달 및 자기 인식 정도에 비해 절대적으로 부적절한 답변”을 노출한다고 덧붙였습니다.[expand title=eng]
ChatGPT also suffered a data breach and exposed users conversations and payment information of its users last week, the Italian authority said. It added OpenAI does not verify the age of users and exposes “minors to absolutely unsuitable answers compared to the their degree of development and self-awareness.”[/expand]

해당 기사에서 언급하는 내용은 2023년 3월 22일 ChatGPT 다운 이후로 유료 버전 사용자의 결제 정보가 유출되었다는 것이다. (관련 기사). 아마 정상적인 상황에서는 이런 일들은 발생하지 않는 것으로 보이기는 하지만 GDPR을 준수한다는 내용을 20일 이내에 알리지 않으면 최대 4%에 달하는 벌금을 부과할 수 있다는 내용.

10월 29, 2025
트위터 추천알고리즘 일부 공개

Twitter reveals some of its source code, including its recommendation algorithm
TechCrunch, by Kyle Wiggers

트위터 추천 알고리즘 공개와 오픈소스에 대한 논쟁이 있었는데, 트위터가 소스코드 일부를 깃허브에 공개했다. 트위터는 “더 투명해지기 위한 첫 번째 단계”라고 밝혔다. 일부 공개된 내용으로 인해 언급되고 있는 것은 공개되지 않은 부분에 관한 내용이다. 주요 내용 중 하나는 소스에 따라 트윗을 다르게 취급하고 있다는 점이다. 파워유저인지 아닌지에 따라, 정치적 성향(공화당인지 민주당인지)에 따라 트윗을 다르게 취급할 수 있다는 가능성이 제기되었다.

Gizmodo는 공개되지 않은 것으로 보이는 한 가지는 Twitter가 사용자에게 푸시하는 VIP 목록이라고 말합니다. 이번 주 Platformer는 트위터가 유튜버 미스터 비스트(Mr. Beast)와 데일리 와이어(Daily Wire) 설립자 벤 샤피로(Ben Shapiro)를 포함해 주목할 만한 사용자 목록을 돌아가며 쓰고 있다고 보도했습니다.
알고리즘이 소스에 따라 트윗을 다르게 취급할 수 있다는 더 많은 증거가 있습니다. Jane Manchun Wong 연구원은 Twitter의 알고리즘이 트윗 작성자가 Elon Musk인지 여부를 구체적으로 표시하고 작성자가 “파워 유저”인지, 공화당원인지 민주당원인지를 나타내는 다른 레이블을 가지고 있다고 언급했습니다.
오늘 오후 Spaces 세션에서 Twitter 엔지니어는 레이블이 메트릭에만 사용되었다고 말했습니다. 그러나 오늘 이전에는 라벨을 몰랐다고 말한 머스크는 라벨이 있으면 안 된다고 말했습니다.[expand title=eng]
Gizmodo notes that one thing that doesn’t appear to have been made public is the list of VIPs that Twitter pushes to users. This week, Platformer reported that Twitter has a rotating list of noteworthy users, including YouTuber Mr. Beast and Daily Wire founder Ben Shapiro, that it uses to monitor changes to the recommendation algorithm by increasing the visibility of these “power users” seemingly at will.
There’s more evidence that the algorithm may treat tweets differently depending on the source. Researcher Jane Manchun Wong noted that Twitter’s algorithm specifically labels whether the tweet author is Elon Musk and has others labels indicating whether the author is a “power user” as well as whether they’re a Republican or Democrat.
During the Spaces session this afternoon, a Twitter engineer said that the labels were used only for metrics. But Musk — who said he wasn’t aware of the labels prior to today — said that they shouldn’t be there.[/expand]

10월 29, 2025
발렌시아가 입은 교황

AI Images Like the “Balenciaga Pope” Are Getting Harder to Spot
By Billy Perrigo

교황이 발렌시아가 패딩을 입은 사진이 온라인에서 바이럴 된 바 있다. 딥페이크에 관한 논의에서 이미지가 어색한 부분을 확인하는 방법 또는 이미지를 직접 검색해보는 방법을 활용해 진위여부를 판별할 수 있다는 이야기들을 했다. 이 사진도 진짜같지만 십자가 목걸이, 손모양 등을 참고하면 아직까지 조금 어색한 부분들을 발견할 수 있다. 그럼에도 불구하고 얼핏 보면 이 사진이 어색하다는 걸 발견할 수 있을까?

딥페이크 비디오를 감지하는 데 96% 정확하다고 말하는 Intel의 제품을 포함하여 딥페이크를 감지할 수 있다고 주장하는 판매용 소프트웨어가 많이 있습니다. 그러나 이미지가 AI로 생성되었는지 여부를 안정적으로 알려줄 수 있는 무료 온라인 도구는 거의 없습니다. AI 플랫폼 Hugging Face에서 호스팅되는 무료 AI 이미지 감지기 1개 는 Balenciaga Pope의 이미지가 AI로 생성되었음을 69%의 확실성으로 정확하게 감지할 수 있었습니다. 그러나 최신 버전의 Midjourney에서 제작한 Elon Musk의 AI 생성 이미지를 제시 한 이 도구는 이미지가 진짜라고 54% 확신한다고 말하면서 잘못된 대답을 했습니다.

10월 29, 2025