[작성자:] haeyeop

  • 로이터, AI와 뉴스의 미래

    What Does the Public in Six Countries Think of Generative AI in News?
    Reuter Institute

    AI가 대부분의 뉴스를 생산할 경우, 뉴스의 품질이 덜 신뢰할 수 있고 덜 투명해질 것으로 예상하지만, 더 최신의 정보를 제공하며 제작 비용이 크게 절감될 것으로 생각. 단지 8%만이 AI가 생산한 뉴스가 인간이 생산한 뉴스보다 더 가치가 있을 것이라고 응답함. 아래는 세 가지 큰 파트 중 저널리즘 관련 세부 내용

    • 많은 대중은 기자들이 현재 생성 AI를 사용하여 특정 작업을 완료하고 있다고 생각합니다. 43%는 맞춤법 및 문법 검사에, 29%는 헤드라인 작성에, 27%는 기사 작성에 생성 AI를 항상 또는 자주 사용한다고 생각합니다.
    • 응답자의 약 32%는 인간 편집자가 AI 출력물이 출판되기 전에 올바르거나 높은 품질인지 확인한다고 생각합니다.
    • 사람들은 일반적으로 인간 기자가 작성한 뉴스가 AI가 작성한 뉴스보다 더 신뢰할 수 있다고 생각합니다.
    • 사람들이 일반적으로 조심스러워하지만, 패션(+7)과 스포츠(+5)와 같은 소프트 뉴스 주제에서는 ‘국제 문제(-21)’ 및 ‘특히 정치(-33)’와 같은 하드 뉴스 주제보다 AI가 대부분 생산한 뉴스를 사용하는 것에 대해 다소 더 편안함을 느낍니다.
    • AI가 주로 작성하고 일부 인간이 감독한 뉴스가 표시되어야 하는지 묻는 질문에 대해, 대다수의 응답자들은 최소한 일부 공개 또는 라벨링을 원합니다. 단지 5%만이 나열된 사용 사례 중 어느 것도 공개될 필요가 없다고 응답했습니다.
    • 어떤 사용 사례를 공개해야 하는지에 대한 합의는 적습니다. 약 32%는 ‘기사의 맞춤법 및 문법 검사’와 ‘헤드라인 작성’을 공개해야 한다고 생각하며, 이는 ‘기사의 텍스트 작성(47%)’ 및 ‘데이터 분석(47%)’에 대해 약 절반으로 증가합니다.
    • 다시 한번, 언론에서의 생성 AI 사용에 대한 견해를 묻는 질문에서, 응답자의 3분의 1에서 절반은 중립적인 선택을 하거나 ‘모르겠다’고 답하여 큰 불확실성과/또는 복잡성의 인식을 반영합니다.
  • 변호사 시험에서 과장된 챗지피티 점수

    Why ChatGPT-4’s Score on the Bar Exam May Not Be So Impressive
    NYSBA

    OpenAI가 ChatGPT-4가 바 시험에서 상위 90%에 들었고, 단 6분 만에 시험을 완료했다고 발표했었지만 이러한 결과가 과장되었을 수 있다는 이야기.

    그는 또한 2월 시험 응시자들과의 비교가 GPT-4에게 불공평한 이점을 제공했다고 말했습니다. 2월 시험에 응시하는 예비 변호사들은 주로 7월에 실패한 사람들로, 재시험 응시자들은 처음 시험을 보는 사람들보다 점수가 낮기 때문입니다. … Martinez는 단기적으로 AI가 연구를 간소화하고 사례를 인용하는 데 도움이 될 수 있지만, 변호사들이 해당 사례가 실제로 존재하는지 확인해야 한다고 말했습니다. 하지만 문서를 작성하거나 고객에게 조언을 제공하는 데 있어서의 효율성은 아직 명확하지 않다고 말했습니다.

  • 인공지능 법안에 실리콘벨리 반발

    ‘Little Tech’ brings a big flex to Sacramento
    Politico

    잘못된 규제 정책에 대한 사례를 자꾸 스크랩하게 되는데 아마도 최근에 이런 일이 많이 발생하기 때문은 아닌지. 인공지능에 대한 과도한 우려때문에 그런건 아닌가 싶음. 벤처쪽 입장은 엑셀로 인해 발생한 사기사건에 대한 책임을 마이크로소프트가 져야한다는 것과 같다는 식으로 비유하기도 함. AB5에 대한 언급도 나오는 중.

    에어비앤비, 드롭박스, 도어대시를 탄생시킨 벤처 캐피탈 회사인 Y Combinator가 오늘 주 상원의원 스콧 위너의 법안에 반대하는 첫 포문을 열었습니다. 이 법안은 대형 AI 모델이 안전성 테스트를 거치도록 요구하는 내용을 담고 있습니다.

    … 위너의 상원 법안 1047은 2월에 처음 도입된 이후 규제를 경계하는 테크 기업들의 표적이 되어왔지만, 큰 저항 없이 원래의 하원을 통과했습니다. 이제 이 법안은 주 의회에서 강한 반대에 직면하고 있으며, 반대자들은 이 법안이 자국 산업을 저해할 것이라고 주장하며 압력을 높이고 있습니다.

    이 법안은 훈련에 1억 달러 이상의 비용이 드는 가장 큰 AI ‘프런티어 모델’의 개발자가 시스템의 위험 평가를 실시하도록 요구하여, 재앙적 피해를 예방하는 것을 목표로 하고 있습니다. 위너는 오랫동안 이 요구 사항을 합리적이라고 주장해 왔습니다. 이번 주 초 그는 이 법안이 “가벼운 접근”이라고 말했습니다. 많은 기업들은 동의하지 않습니다.

  • AI에 관한 기대

    220. Are AI Expectations Too High or Misplaced?
    Hardcore Software by Steven Sinofsky

    스티븐 시놉스키의 글. LLM(대형 언어 모델)을 일반 웹 검색에 사용하는 것이 잘못된 방향으로 나아가고 있다고 경고. 창의적인 기술의 강점을 충분히 활용하지 못하게 되었다고 비판. LLM도 제한된 영역에 머물고 일반화되지 않을 가능성이 있다고 언급함.

    이러한 제품화 순간 중 하나가 발생하면 처음에는 AI의 진보로 찬양받습니다. 그러고 나면 거의 눈 깜짝할 사이에 그 혁신이 더 이상 AI로 여겨지지 않습니다. 세상은 매우 빠르게 새로운 정상으로 재설정되고, 새로운 것은 단지 멋진 것으로 간주되지만 AI로 언급되는 경우는 드뭅니다. 이것이 바로 “작동하면 더 이상 AI가 아니다”라는 오래된 속담입니다.

    우리는 지도 방향/경로, 필기, 철자 및 문법, 이미지 인식, Airbnb에서 Bumble까지 일어나는 매칭, 심지어 더 최근의 사진 향상까지 수십 년의 연구를 AI로 여기지 않고 단지 “작동하는 새로운 기능”으로 생각합니다.

  • 연구: 환각과 의미적 엔트로피

    Farquhar, S., Kossen, J., Kuhn, L. et al. Detecting hallucinations in large language models using semantic entropy. Nature 630, 625–630 (2024). https://doi.org/10.1038/s41586-024-07421-0

    환각을 탐지하는 방법에 관한 네이처 논문. 동일 질문에 대한 답변을 샘플링하여 의미적으로 클러스터를 만들어 엔트로피를 측정하는 방식을 활용. 하지만 언어 모델의 체계적으로(?) 잘못된 답변을 생성한다면, 이를 탐지할 수 있는 방법은 아닐 수도 있음.

    대형 언어 모델(LLM) 시스템, 예를 들어 ChatGPT1이나 Gemini2와 같은 시스템은 인상적인 추론 및 질문 응답 능력을 보여줄 수 있지만 종종 잘못된 출력과 근거 없는 답변을 생성하는 ‘환각(hallucinations)’을 보입니다. 신뢰할 수 없거나 필요한 정보 없이 답변하는 것은 다양한 분야에서의 채택을 저해하며, 여기에는 법적 판례의 날조, 뉴스 기사에서의 거짓 사실, 그리고 방사선학과 같은 의료 분야에서 인명에 위협을 가하는 경우가 포함됩니다. 감독 또는 강화 학습을 통해 진실성을 장려하려는 시도는 부분적으로만 성공했습니다. 연구자들은 인간이 답을 모를 수 있는 새로운 질문에 대해서도 작동하는 일반적인 환각 탐지 방법이 필요합니다. 여기서 우리는 통계에 기반한 새로운 방법을 개발하여, LLM의 임의적이고 잘못된 생성물인 일부 환각(특히 confabulations)을 탐지하는 엔트로피 기반 불확실성 추정기를 제안합니다. 이 방법은 하나의 아이디어가 여러 방식으로 표현될 수 있다는 사실을 고려하여 특정 단어 시퀀스가 아닌 의미 수준에서 불확실성을 계산합니다. 이 방법은 작업에 대한 사전 지식 없이 데이터셋과 작업 전반에 걸쳐 작동하며, 이전에 보지 못한 새로운 작업에도 강건하게 일반화됩니다. 입력이 confabulation을 일으킬 가능성이 높은 경우를 탐지함으로써, 이 방법은 사용자가 LLM을 사용할 때 특별히 주의해야 할 상황을 이해하도록 도우며, LLM의 불신으로 인해 방해받는 새로운 가능성을 열어줍니다.

  • 검색 엔진 제로클릭

    Zero-Clicks Study
    Semrush, by Marcus Tober

    Semrush의 연구에 따르면, Google 검색 결과에서 클릭이 없는 “Zero-click” 검색의 비율이 데스크탑에서는 25.6%, 모바일에서는 17.3%로 나타남. 이는 사용자들이 검색 결과 페이지에서 바로 정보를 얻고 링크를 클릭하지 않는 경우를 의미. 최근 SGE 이야기를 하며 검색을 통한 트래픽 유입이 줄어들 것을 걱정하는 퍼블리셔나 크리에이터들이 있는데, 어찌보면 이미 제로클릭은 기존부터 꽤나 높은 비율로 존재.

    이는 데스크톱과 모바일에서 클릭이 전혀 없는 검색이 전체 검색의 17.3%를 차지한 것에서 알 수 있습니다. 사용자들은 본질적으로 클릭을 피하려고 하는 것이 아니라 정보를 더 빨리 얻고자 하는 것입니다. 현재 검색의 두 가지 기능이 이를 지원합니다: 바로 답변과 모바일에 최적화된 반무한 스크롤 환경입니다.

    모바일에서 오가닉 클릭은 증가하지 않았지만 키워드 변경은 증가했다는 사실은 모바일 사용자가 데스크톱 사용자보다 여러 검색에 참여할 가능성이 훨씬 높다는 사실을 입증합니다. 데스크톱에서 새로운 키워드를 실행하는 사용자는 17.9%에 불과한 반면, 모바일에서는 29.3%에 달했습니다. 사람들은 데스크톱보다 모바일에서 더 많이 참여하고 몰입하며, 이는 제로 클릭의 증가와 이러한 간편한 액세스에 대한 수요를 반영합니다.

    모바일이 좀 더 낮다는 것은 아마도 제시되는 정보가 제한적이기 때문이지 않을까 하는 생각

  • 감소하는 뉴스 참여

    Altay, S., Fletcher, R., & Nielsen, R. K. (2024). News participation is declining: Evidence from 46 countries between 2015 and 2022. New Media & Society

    디지털 뉴스 리포트 2015-2022까지 데이터를 바탕으로 분석한 결과. 뉴스 참여를 개념화하는거에 좀 의문은 들지만. 어떻게 해석하는게 맞을지 생각해볼 일이다.

    디지털 미디어는 뉴스 참여에 새로운 방법을 제공했다는 점에서 종종 찬사를 받습니다. 그러나 최근 몇 년간 뉴스 참여는 어떻게 변했을까요? 2015년부터 2022년까지 46개국에서 수집된 설문 조사 데이터(N = 577,859)에 대한 사전 등록된 분석에 따르면, 뉴스 참여가 감소한 것으로 나타났습니다. 이러한 감소는 대부분의 국가에서, 그리고 소셜 미디어에서의 뉴스 좋아요, 공유, 댓글 달기 및 오프라인에서의 뉴스 대화와 같은 대부분의 참여 형태에서 관찰되었습니다. 유일하게 증가한 참여 형태는 개인 메시징 앱을 통한 뉴스 공유입니다. 전반적으로 뉴스 참여는 젊은 사람들, 대학교육을 받은 사람들, 뉴스에 높은 관심을 가진 사람들, 뉴스에 대한 신뢰도가 낮은 사람들 사이에서 더 높았습니다. 시간이 지남에 따라 참여는 뉴스에 대한 신뢰도가 낮은 사람들, 학사 학위가 없는 사람들, 여성들 사이에서 더 많이 감소했습니다. 국가 내에서는 정치적 양극화가 증가함에 따라 참여가 감소하는 경향이 있었습니다.

  • Perplexity의 사이트 스크랩

    Perplexity Is a Bullshit Machine
    Wired

    챗봇을 통해 자연어로 답변을 제공하고 실시간으로 인터넷에 접근할 수 있다고 주장하지만 이를 위해 부정한 방법으로 데이터를 스크래핑 하고 있다는 와이어드 기사

    WIRED 분석 및 개발자 Robb Knight가 수행한 분석에 따르면, Perplexity는 웹 운영자가 봇의 접근을 원하지 않는 영역을 은밀히 크롤링하기 위해 널리 받아들여지는 웹 표준인 로봇 배제 프로토콜(Robots Exclusion Protocol)을 무시하는 방식으로 이를 부분적으로 달성하는 것으로 보입니다. WIRED는 Perplexity와 연결된 머신(더 구체적으로는 Amazon 서버에 위치하고 거의 확실히 Perplexity가 운영하는 머신)이 WIRED.com 및 다른 Condé Nast 출판물에서 이를 수행하는 것을 관찰했습니다.

  • 연구: 인공지능이 직업에 미치는 잠재적 영향

    Eloundou, T., Manning, S., Mishkin, P., & Rock, D. (2024). GPTs are GPTs: Labor market impact potential of LLMs. Science384(6702), 1306-1308.

    라벨링 하는 과정에서 주관이 개입될 여지가 있기에 결과를 얼마나 신뢰할 수 있을지는 모르겠지만 혹시 연구방법 측면에서 참고가 될까 싶어서.

    우리는 대형 언어 모델(LLM)과 관련 기술들이 작업에 미치는 잠재적 영향을 평가하기 위한 프레임워크를 제안합니다. 이 프레임워크는 작업자가 직무에서 수행하는 작업과의 관련성을 고려하여 설계되었습니다. 이 프레임워크를 인간과 LLM을 사용하여 적용한 결과, 간단한 인터페이스와 일반 교육을 갖춘 LLM이 직무의 절반 이상에 영향을 미칠 수 있는 직업은 약 1.8%로 추정됩니다. 그러나 LLM 기능을 보완하는 현재 및 미래의 소프트웨어 개발을 고려하면, 이 비율은 46%를 약간 넘는 수준으로 증가합니다. 생성적 사전 학습 변환기(GPT)와 같은 LLM의 집합적 특성은 이들이 다른 “GPT” (범용 기술)의 핵심 특성을 가지고 있음을 강하게 시사합니다. 우리의 연구는 LLM과 보완 기술이 노동 시장에 미칠 수 있는 잠재적 영향을 다루기 위한 강력한 사회적 평가와 정책 조치의 필요성을 강조합니다.

  • 모금을 위한 기사 제목

    Increasingly stress-inducing subject lines helped The Intercept surpass its fundraising goal
    Nieman Lab

    스트레스를 유발하는(?) 기사 제목으로 모금에 성공했다는 이야기. 혹시나 나중에 연구에 쓸 수 있을까 싶어 메모.

    • “지금은 저널리즘에 있어 힘든 시기입니다. 여러분의 월 5달러 기부가 가자지구 보도를 계속할 수 있게 해줍니다.”(4월 17일)
    • “다른 사람들이 외면하는 가자 지구를 계속 취재하려면 여러분의 도움이 필요합니다.”(4월 20일)
    • “아무도 더 인터셉트의 모금 이메일을 읽지 않습니다”(4월 22일)
    • “긴급한 마감일이 다가오는데 시간이 부족합니다.”(4월 25일)
    • “이 중요한 목표를 달성할까 봐 긴장됩니다.”(4월 26일)
    • “오늘이 마지막 날입니다. 실망시키지 마세요.” (4월 30일)

    … 하지만 많은 인터셉트 독자들에게는 효과가 있었습니다. 뉴스 산업의 심각한 상황에 초점을 맞춘 4월 캠페인은 2주 만에 3,000명의 신규 월간 정기 후원자를 추가하는 것을 목표로 했습니다. 가장 효과적인 이메일은 4월 24일의 ‘감원, 해고, 폐쇄’로 525명의 신규 기부자를 확보했으며, 이 중 400명이 정기 기부자가 되었습니다. 두 번째로 효과적인 이메일은 4월 28일의 ‘저널리즘은 죽을 것입니다’였습니다. 인터셉트는 캠페인 마지막 3일 동안 1,500명을 포함해 이달 말까지 3,500명의 신규 정기 기부자를 추가했습니다.