Blog

  • 기사의 투명성과 신뢰도

    Where should transparency language go? In the story itself.

    해외 기사는 투명성 관련 내용을 기사에 포함해서 작성하는 경우가 많다. 투명성 상자는 언론사가 해당 기사를 보도한 방법이나 이유에 대한 간략한 설명을 시각적으로 구분하기 위해 온라인 간행물에서 자주 사용하는데, 이러한 투명성 관련 내용이 어떤 방식으로 포함되는것이 좋은지에 관한 연구결과이다. 아마 유사한 실험을 뉴스 신뢰도 관련 연구에서 시도했었는데 논문을 쓰지 못했다.

    결과는 상자에 투명성 내용을 집어넣는 것보다 기사에 통합시키는편이 더 좋다는 것이다. 왠지 HCI 연구 같은 느낌이기는 하지만 온라인의 기사 디자인을 고민하는 사람에게는 참고가 될 수 있는 이야기일지도..

    관심을 끌기 위한 수단으로 광고, 동영상 미리보기 이미지, 눈에 띄는 헤드라인이 점점 더 화려해짐에 따라 사용자들이 이러한 트릭을 학습하고 온라인에서 광고를 모방할 수 있는 시각적으로 눈에 띄는 항목을 자연스럽게 피하기 시작했다는 연구 결과가 발표되어 흥미로운 아이디어입니다. 따라서 많은 사용자가 보충적인 내용이나 원래 스토리의 일부가 아닌 것처럼 느껴지는 상자를 건너뛰는 것을 발견했습니다. 이를 통해 저널리즘 실무자에게 몇 가지 잠재적인 권장 사항을 제시할 수 있었을 뿐만 아니라(이에 대해서는 다음에 자세히 설명합니다), 향후 연구할 수 있는 몇 가지 영역을 파악할 수 있었습니다.

  • 필터버블 관련 연구

    Users choose to engage with more partisan news than they are exposed to on Google Search

    필터버블과 관련된 네이처 연구. 초록만을 번역한 내용이다. 기존에 필터버블 논쟁은 실제 데이터 확인이 어렵기 때문에 개념적인 부분에 머물러 있었으나, 조금 더 믿을만한 연구가 하나 추가되었다. 예전 토론에서도 유사한 이야기를 한 번 한 적이 있는데 이러한 연구가 필터버블이라는 걱정이 생각보다 크지 않을 것이라는 주장의 근거가 될 수 있을 것 같다.

    인기 있는 온라인 플랫폼이 사용자들을 편파적이고 신뢰할 수 없는 뉴스에 체계적으로 노출시킨다면, 이는 정치적 양극화 심화와 같은 사회적 문제에 기여할 수 있습니다1,2. 이러한 우려는 ‘에코 챔버’3,4,5 및 ‘필터 버블’6,7 논쟁의 핵심으로, 사용자 선택과 알고리즘 큐레이션이 사용자를 다양한 온라인 정보 소스로 안내하는 역할을 비판하는 것입니다8,9,10. 이러한 역할은 온라인 플랫폼이 사용자에게 보여주는 URL로 정의되는 노출과 사용자가 선택한 URL로 정의되는 참여로 측정할 수 있습니다. 그러나 생태학적으로 유효한 노출 데이터(실제 사용자가 일반적인 플랫폼 사용 중에 노출된 데이터)를 확보하는 것이 어렵기 때문에 이러한 맥락의 연구는 일반적으로 참여 데이터4,8,11,12,13,14,15,16 또는 가상의 노출 추정치17,18,19,20,21,22,23에 의존하고 있습니다. 따라서 생태학적 노출과 관련된 연구는 드물고 대부분 소셜 미디어 플랫폼에 국한되어 있어7,24 웹 검색 엔진에 대한 의문이 남아있습니다. 이러한 격차를 해소하기 위해 2018년과 2020년 미국 대선 기간 동안 Google 검색 노출과 참여에 대한 생태학적으로 유효한 측정치와 설문조사를 결합한 두 차례의 연구를 실시했습니다. 두 웨이브 모두에서, Google 검색 결과에서 노출된 것보다 Google 검색 내에서 그리고 전반적으로 참여자가 선택한 뉴스 소스에서 정체성과 일치하지 않거나 신뢰할 수 없는 뉴스 소스가 더 많이 발견되었습니다. 이러한 결과는 Google 검색에서 편파적이거나 신뢰할 수 없는 뉴스에 대한 노출과 참여가 주로 알고리즘 큐레이션이 아니라 사용자 자신의 선택에 의해 이루어지고 있음을 나타냅니다.

  • 사람들이 지역 뉴스에 원하는 것

    We asked 5,000 people across the country what they want from local news. Here’s what we learned.
    American Journalism Project

    지역 뉴스에 원하는 것이 무엇인지와 관련해 9가지 공통된 주제를 선정했다고 한다.

    1. 사람들은 더 많은 지역 뉴스를 원합니다.
    2. 사람들은 공유되고 신뢰할 수 있는 사실 출처를 원합니다.
    3. 사람들은 자신이 속한 커뮤니티의 모든 이야기가 전달되기를 원합니다.
    4. 사람들은 의사 결정이 내려지기 전에 미리 알고 싶어 하며, 의사 결정권자가 결과에 대해 책임을 지기를 원합니다.
    5. 사람들은 뉴스와 뉴스룸에서 자신을 보고 싶어 합니다.
    6. 사람들은 저널리스트가 질문하기를 원합니다.
    7. 사람들은 행동에 옮길 수 있는 정보를 원합니다.
    8. 사람들은 자신이 있는 곳에서 뉴스를 만나기를 원합니다.
    9. 사람들은 뉴스룸이 커뮤니티를 연결하고 소집하는 역할을 하기를 원합니다.

    가장 많이 이야기하는 첫 번째 주제. 그 중에서도 눈길이 가는 내용이 있어 남겨놓는다.

    … 우리가 조사를 실시한 모든 곳에서 압도적으로 ‘그렇다’는 대답이 나왔으며, 이는 다양한 방식으로 나타났습니다. 많은 사람들이 이웃에 무슨 일이 발생하면 어디에서 무슨 일이 일어나고 있는지 알아볼 수 있는지 전혀 모른다고 말합니다. 어떤 사람들은 뉴스 매체보다 직접 서비스를 제공하는 커뮤니티 조직과 개인을 더 신뢰한다고 말하는데, 그 이유는 이러한 단체가 필요할 때 도움을 제공하기 때문입니다. 대부분의 시장에서 지역 언론사가 다른 지역의 뉴스를 보도하거나 방영하는 경우가 많다는 불만을 듣게 되는데, 이는 미디어 소유권의 통합, 비용 절감, 더 많은 일반 시청자를 대상으로 하는 콘텐츠가 필요한 광고 모델에서 비롯된 현상입니다. 또한 대도시에서는 사람들이 ‘지역’ 정보에 대해 이야기할 때 종종 지역 사회에서 일어나는 일과 연결되는 동네 수준의 정보에 대해 이야기하는 것으로 나타났습니다.

  • ChatGPT와 대학과제평가

    Professor Flunks All His Students After ChatGPT Falsely Claims It Wrote Their Papers
    By Miles Klee

    사건 경과가 어떻게 진행되고 진실인지 아닌지 여부를 이후에 별도로 확인하지는 않았지만, 그 이후 별다른 정정보도가 붙어있지 않아서 기록용으로 남기는 기사. 수업시간에도 언급한 바 있으나 기술에 대한 이해도로 인해 이상한 결론으로 이끌게 된 사례

    그는 각 논문을 두 번씩 테스트했다고 말하며 “[ChatGPT]에 학생들의 답변을 복사하여 붙여넣으면 프로그램이 내용을 생성했는지 알려줍니다.”라고 썼습니다. 그는 이론적으로 졸업 자격에 위협이 될 수 있는 낙제점을 피하기 위해 학생들에게 보충 과제를 제안했습니다.
    한 가지 문제가 있습니다. ChatGPT는 그런 식으로 작동하지 않습니다. 이 봇은 AI가 작성한 자료나 심지어 자체적으로 생성한 자료를 감지하도록 만들어지지 않았으며, 때때로 피해를 주는 잘못된 정보를 방출하는 것으로 알려져 있습니다. ChatGPT는 약간의 자극만 주면 범죄와 처벌과 같은 유명 소설의 구절을 작성했다고 주장하기도 합니다. 교육자는 학생들이 과제를 스스로 완료했는지 평가할 수 있는 다양하고 효과적인 AI 및 표절 감지 도구 중에서 선택할 수 있으며, 여기에는 Winston AI 및 Content at Scale이 포함됩니다. 그리고 봇이 작성한 텍스트인지 여부를 판별하는 OpenAI의 자체 도구는 기업에 기술 리소스를 추천하는 디지털 마케팅 대행사에 의해 “정확도가 떨어진다”는 평가를 받았습니다.[expand title=eng]

    “I copy and paste your responses in [ChatGPT] and [it] will tell me if the program generated the content,” he wrote, saying he had tested each paper twice. He offered the class a makeup assignment to avoid the failing grade — which could otherwise, in theory, threaten their graduation status.
    There’s just one problem: ChatGPT doesn’t work that way. The bot isn’t made to detect material composed by AI — or even material produced by itself — and is known to sometimes emit damaging misinformation. With very little prodding, ChatGPT will even claim to have written passages from famous novels such as Crime and Punishment. Educators can choose among a wide variety of effective AI and plagiarism detection tools to assess whether students have completed assignments themselves, including Winston AI and Content at Scale; ChatGPT is not among them. And OpenAI’s own tool for determining whether a text was written by a bot has been judged “not very accurate” by a digital marketing agency that recommends tech resources to businesses.[/expand]

  • GPT와 스택오버플로우 트래픽

    Stack Overflow is ChatGPT Casualty: Traffic Down 14% in March

    Smiliarweb 통계를 보면 스택오버플로우 트래픽은 큰 폭으로 감소. 인과관계를 명확하게 말할 수 있는지는 모르겠지만 튜토리얼과 함께 코드 샘플을 보여주는 언어모델이 스택 오버 플로우를 죽일 것이라는 예측이 있었다. 하지만 실제 ChatGPT 콘텐츠를 스택오버플로우에 게시하는 것은 금지. 답변이 너무 부정확하기 때문인데 이와 관련해서는 많은 사례들이 이야기되고 있다. 사이트는 깃허브 성장에 관해서도 언급한다(나중에 필요한 경우 참고).

    차트: Stack Overflow, ChatGPT 및 GitHub에 대한 트래픽
  • 유튜브의 수익 구성

    콘텐츠 수익모델과 관련하여 얼마 전 읽었던 벤 톰슨의 글에서 유튜브 프리미엄에 대한 공개를 언급하는 부분이 있었는데 닐 모한이 언급한 내용을 통해 연간 $ 10 billion 정도 된다고 예측할 수 있다.

  • 아마존의 ChatGPT 활용 도서

    He wrote a book on a rare subject. Then a ChatGPT replica appeared on Amazon.
    WP, by Will Oremus

    생성 인공지능으로 인해 쓰레기가 넘쳐나는 웹이 되지 않을까 생각했는데 생각보다도 빠르게 진행되고 있는 모습 아닌가 싶다. 사례는 ChatGPT를 활용하여 만든 도서의 복제본이 아마존에서 판매되고 있다는 사실을 언급하고 있다.

    콘텐츠 생산에는 커다란 진입 장벽이 있었다. 인터넷은 유통 측면에서 문제를 해결하며 무한한 수요를 만들었으나 공급은 그렇지 않았기 때문에 콘텐츠가 왕이라는 말까지도 있었다. 하지만 생성 인공지능은 이러한 공급의 문제를 해결해 줄 것처럼 보였다.

    하지만 마치 폭등하는 주가차트처럼 올라갔다가 다시 꺼지는 상황이 발생하지 않을지. 네이버 웹툰의 영업 실적을 보면 어두운 전망을 나타내는데, 마치 아타리 쇼크를 떠올리게 하는 상황의 전조는 아닌지. 콘텐츠 생산의 기술적 어려움은 낮아지고 있는 것처럼 보이지만 정말 볼만한 콘텐츠란 언제나 희소하다.

  • 인공지능 학습과 데이터

    A Photographer Tried to Get His Photos Removed from an AI Dataset. He Got an Invoice Instead.
    Motherboard, by Chloe Xiang

    독일의 한 스톡 사진작가가 AI 학습용 LAION 데이터 세트에서 자신의 사진을 삭제하려고 시도했는데 오히려 변호사는 부당한 저작권 청구로 979달러를 지불해야 한다는 답변을 받았다는 기사.

    인공지능 학습과 저작권에 대한 논쟁이 점차 심해질 것이고, Zarya of the Dawn 같은 코믹스 저작권 관련 판결이 논쟁이 되기도 한 바 있다. 과연 어떤 방식의 접근이 좋은지 명확하게 판단하기는 어렵지만 Benedict Evans가 과거에 쓴 데이터에 관한 글 일부를 생각해볼만하다.

    기술은 내러티브로 가득 차 있지만 가장 시끄러운 것 중 하나는 ‘데이터’라는 것입니다. AI는 미래입니다. 데이터에 관한 모든 것입니다. 데이터는 미래입니다. 우리는 그것을 소유하고 아마도 지불해야 하며 국가는 데이터 전략과 데이터 주권이 필요합니다. 데이터는 새로운 석유입니다! 이것은 대부분 넌센스입니다. ‘데이터’와 같은 것은 존재하지 않으며, 가치가 없으며 어쨌든 실제로 귀하의 소유가 아닙니다.

    2017년 이코노미스트 컬럼은 데이터를 석유에 비유하며 자원으로 이야기했으나 데이터는 석유 같은 자원이 아니라는 이야기. 특정한 맥락에서 특정한 목적을 가지고 있을 때에만 가치를 가지기 때문에 석유와 같은 자원으로 비유하는 것은 적절하지 않다는 것이다(나도 과거에 데이터를 모을 때 같이 협업하던 분이 데이터가 아니라 거대한 쓰레기라는 말을 한 게 생각난다).

    물론 일부 유형의 데이터에서 문제가 될 수 있는 부분들도 있으나, 우리가 이런 논의를 위해서는 어떤 종류의 데이터에 어떤 크레딧을 줄 수 있는지 분리해서 생각하는 것이 필요하지 않을지.

  • OTT서비스 이탈률

    Price Point 031: TV Questions Asked of TV Companies
    Roy Price

    OTT시장 경쟁상황 전반에 대한 요약이 잘 되어 있는 글. 2022년 6월 기준으로 미국 스트리밍 서비스 시청은 34.8%로 케이블 이용(34.4%)을 넘어섰으나 이러한 시장을 8~9개 사업자가 나누어가지는 형태로 구성되어 있다. 모든 스트리밍 서비스 중 1위는 유튜브, 구독 기반 서비스 중에서는 넷플릭스가 선두.

    문제는 서비스 해지율(churn rate)에 대한 것으로, 이탈률이 높아질수록 새로운 고객을 유치하기 위해서 개별 업체가 투자해야하는 비용이 증가하게 된다는 것이다. 이를 줄이기 위한 전략으로 언급되는 것은 다음과 같다.

    이를 개선하기 위해 사용할 수 있는 수단으로는 (a) 축구 시즌이나 텐트폴 타이틀과 같이 고객에게 항상 기대할 만한 요소를 제공하여 해지율 자체를 낮추는 것, (b) 계절성이 덜한 다른 구독 서비스(예: Prime 또는 Netflix와 Spotify를 하나로 묶으면 어떨까요?)와 서비스를 번들링하는 것, (c) 다른 가치 있는 구독 서비스와 번들링하는 것, (d) 다른 구독 서비스와 번들링하는 것 등이 있습니다.), (c) 소셜 네트워크나 채팅과 같은 가치 있는 서비스와 구독 서비스를 번들로 제공(BiliBili), (d) 아이덴티티를 통해 브랜드 충성도를 창출(뉴요커 토트백, A24 범퍼 스티커), (e) 구독을 연간으로 설정, (f) 좋은 소문(“입소문”)을 들었거나 홍보를 본 고객(“획득된 미디어”)을 “무료로” 유치하여 신규 고객당 비용을 절감하는 방법 등 다양한 방법이 있을 수 있습니다. 신규 고객당 비용을 80달러에서 50달러로 낮출 수 있다면 이는 큰 도움이 됩니다.[expand title=eng]
    Levers you might pull to make this a little better include (a) reducing the churn rate itself by always giving customers something to look forward to such as football season or a tent pole title, (b) bundling your service with other less seasonal subscriptions (like Prime, or — what if Netflix and Spotify were one?), (c) bundle your subscription service with a valued service such as a social network and chat (BiliBili), (d) create brand loyalty through identity (New Yorker totes, A24 bumper stickers), (e) making the subscription annual, and (f) reducing the cost per new customer by attracting customers “for free” because they’ve been hearing good things (“word of mouth”) or saw some publicity (“earned media”). If you can cut your cost per new customer down from $80 to $50, it’s a lifesaver. [/expand]

    이를 바탕으로 각 서비스 업체에 대하나 간략한 현황과 방향에 대한 정리가 되어 있고, 다음과 같이 시장 상황을 유형화했다.

    • Leader: Netflix
    • Tier 2: Prime, Hulu, Disney+
    • Tier3: Max, Peacock, Paramount 
    • Tier4: Apple
  • 모질라의 Fakespot 인수

    Mozilla buys Fakespot, a startup that identifies fake reviews, to bring shopping tools to Firefox

    모질라는 가짜 리뷰를 식별하는데 도움을 주는 브라우저 플러그인 Fakespot을 인수.

    2016년에 설립된 뉴욕에 기반을 둔 Fakespot은 AI 및 머신 러닝 시스템을 사용하여 리뷰 간의 패턴과 유사성을 감지하여 기만적일 가능성이 가장 높은 리뷰를 표시합니다. Fakespot은 소비자가 구매 시 더 많은 정보에 입각한 결정을 내릴 수 있도록 제품 리뷰에 등급이나 등급을 부여합니다. 이 회사의 웹사이트와 브라우저 확장 프로그램의 목표는 검색 엔진에서 기만적인 리뷰가 인위적으로 제품 순위를 부풀릴 수 있는 위치를 사용자가 빠르게 확인할 수 있는 기능을 제공하는 것입니다.

    아마존에 ChatGPT를 활용하여 가짜 리뷰를 작성하는 일이 증가함에 따라(As an AI language model…) 이런 수요가 높아지겠지만 정말 식별이 가능한지도 사실 잘 모르겠다.