[작성자:] haeyeop

  • 중국의 생성형AI 검열 및 안전 표준

    China’s GenAI Content Security Standard: An Explainer
    China Talk

    중국의 생성형 AI 검열 및 안전 표준에 관한 내용

    • 이 표준은 31가지 genAI 위험을 정의합니다. 또한 임시 조치와 마찬가지로 이 표준은 검열 등 “콘텐츠 보안”에 초점을 맞춥니다.
    • 모델 개발자는 다음을 포함하여 모델 수명 주기 전반에 걸쳐 이러한 위험을 식별하고 완화해야 합니다.
      • 훈련 데이터 필터링,
      • 사용자 입력 모니터링,
      • 모델 출력을 모니터링합니다.
    • 이 표준은 법적 구속력은 없지만 사실상의 구속력이 될 수 있습니다.
    • 이 표준에서 요구하는 모든 테스트는 정부가 아닌 모델 개발자들이 직접 실시하거나 스스로 선택한 제3자 기관에서 실시합니다.
    • 하지만 이전 게시물 에서 설명했듯이 , 이 표준에 설명된 평가 외에도 당국은 자체적인 배포 전 테스트도 실시합니다. 따라서 이 표준을 준수하는 것은 genAI 모델을 대중에게 공개하기 위한 라이선스를 취득하는 데 필요하지만 충분한 조건은 아닙니다. 
  • 오픈AI, 컴퓨터 사용 에이전트

    Computer-Using Agent
    OpenAI

    앤트로픽에 이어 OpenAI도 컴퓨터 사용(computer use) 테스트 버전을 출시했다. 수치를 봐도 인간보다 많이 부족하다는 점을 확인할 수 있지만 (실제 데모를 봐도 그렇고), 전용 API가 없이 모든 종류의 소프트웨어나 웹에서 작업을 자동화 할 수 있는 방법이다. GUI가 새로운 API가 되는 것.

    CUA(Computer-Using Agent)는 아직 초기 단계이고 한계가 있지만, 최신 벤치마크 결과를 새롭게 제시하여 전체 컴퓨터 사용 작업의 경우 OSWorld에서 38.1%의 성공률, 웹 기반 작업의 경우 WebArena에서 58.1%, WebVoyager에서 87%의 성공률을 달성했습니다. 이러한 결과는 CUA가 단일 일반 작업 공간을 사용하여 다양한 환경에서 탐색하고 운영할 수 있는 능력을 강조합니다. 

  • 저널리즘, 미디어, 기술 트랜드 2025

    Journalism, media, and technology trends and predictions 2025
    Reuter Institute

    326명의 뉴스 리더를 대상으로 한 조사결과. 그 중에서 비즈니스 측면 관련하여 언급하는 부분.

    • 더 광범위하게, 구독과 멤버십은 퍼블리셔의 가장 큰 수익 초점(77%)으로 남아 있으며, 디스플레이(69%)와 네이티브 광고(59%)보다 앞서 있습니다. 대부분은 이제 이벤트(48%), 제휴 수익(29%), 기부(19%), 관련 사업(15%)을 포함하여 3~4가지 다른 수익원에 의존하고 있습니다.
    • 구독 증가가 둔화되면서, 새로운 제품 개발이 내년에 더욱 중요한 우선순위가 될 것으로 예상됩니다. 퍼블리셔 응답자의 4분의 1 이상이 게임(29%) 또는 교육(26%)을 중심으로 새로운 제품을 출시하는 것을 적극적으로 고려하거나 계획하고 있다고 말했고, 5분의 1(20%)은 국제 또는 외국어 버전을 출시하려고 합니다. 이러한 새로운 제품 중 다수는 이탈률을 줄이기 위해 ‘모든 액세스’ 구독에 포함될 가능성이 높습니다. 동시에 10명 중 4명 이상(42%)이 올해 ‘청소년’ 제품을 출시하거나 시험해볼 계획이라고 말했습니다.
  • 미국의 암호화페 정책 재설정

    SEC Crypto 2.0: Acting Chairman Uyeda Announces Formation of New Crypto Task Force
    U.S. SEC

    관심을 잘 안 가지게 되는 암호화폐이지만, 정책적 변화로 인해 규정을 준수하고 제도권 내로 자리잡게 되는 암호화폐가 나오게 될까? 암호화폐는 이론적인 부분과 현실에서 일치되지 않는 부분이 많은 느낌

    오늘 SEC 대행 의장 마크 T. 우예다는 암호화폐 자산에 대한 포괄적이고 명확한 규제 프레임워크를 개발하는 데 전념하는 암호화폐 태스크포스를 출범시켰습니다. 헤스터 피어스 위원이 태스크포스를 이끌 것입니다. 대행 의장의 수석 고문인 리처드 개버트와 대행 의장의 수석 정책 고문인 테일러 애셔가 각각 태스크포스의 수석 보좌관과 수석 정책 고문을 맡을 것입니다.



  • 인공지능의 불균형한 도착

    AI’s Uneven Arrival
    Stratechery

    재미있는 내용

    세계에서 가장 큰 광고 지출자인 Procter & Gamble Co.는 특정 소비자를 타겟팅하는 Facebook 광고에서 벗어나며, 이러한 관행이 효과가 제한적이라는 결론을 내렸습니다. Facebook Inc.는 인구 통계, 쇼핑 습관 및 인생의 이정표에 따라 소비자를 집중적으로 타겟팅하는 능력을 개발하는 데 수년을 보냈습니다. Tide와 Pampers를 포함한 수많은 가정용품을 만드는 P&G는 처음에는 십대 면도기 사용자부터 처음 집을 소유한 사람에 이르기까지 일부 쇼핑객에게 직접 마케팅할 기회를 잡았습니다.

    P&G의 최고 마케팅 책임자인 마크 프리처드는 회사가 전략을 너무 과하게 적용했다는 것을 깨달았다고 말했습니다. 그는 인터뷰에서 “우리는 너무 많은 것을 타겟팅했고, 너무 좁게 접근했습니다.”라고 말했습니다. “그리고 지금은 다음과 같은 방법을 고려하고 있습니다. 도달 범위를 최대한 넓히면서도 적절한 정확성을 확보하는 가장 좋은 방법은 무엇일까요?”… 더 넓은 범위에서 P&G의 변화는 Facebook 광고 사업의 초석 중 하나인 대형 브랜드에 대한 이러한 타겟팅의 한계를 강조합니다. 이 소셜 네트워크는 타겟팅 마케팅에 대해 더 높은 가격을 요구할 수 있습니다. 타겟팅이 좁을수록 광고 비용이 더 비쌉니다.

    이러한 내용을 통해 생각할 수 있는 것은 무엇일까? 오히려 처음부터 AI를 중심으로 설계된 신생 기업들이 더 큰 혜택을 볼 가능성이 크다는 점을 시사한다. 기존의 전통적 기업들은 오랜 경험과 인적 자산에 기반해 운영되어 AI의 고정밀 작업을 도입하는 데 어려움을 겪을 수 있으며, 단기적으로는 큰 변화를 기대하기 어렵다고 말한다.

    만약 AI 에이전트에서도 이와 유사한 상황이 펼쳐진다면, 가장 중요한 AI 고객은 주로 신규 기업들이 될 것이며, 그 중 상당수는 ‘배럴(효율적인 조직 구조)’과 ‘탄약(개별 AI 작업 능력)’ 비유를 극단적으로 적용하는 롱테일(long tail) 기업들이 될 것이다. 반면, 전통적인 기업들은 AI를 도입하는 데 어려움을 겪게 될 것이며(메인프레임과 같은 전체 직무 대체를 제외하고), 실제 세계에서 차별화된 가치를 유지하는 기업들이 AI를 완전히 도입하는 데는 수년이 걸릴 가능성이 있다.

  • NYT, 미국 구독 번들 파트너

    Scoop: NYT eyes U.S. subscription bundle partners
    Axios

    최근 헐리우드와 엔터테인먼트 산업을 다루는 디지털 뉴스 스타트업인 The Ankler에게 구독 번들 파트너를 제안했다고 한다. 거래가 성사되지는 않았으나 성장 전략을 살펴볼 수 있는 케이스라고 이야기한다.

    유료 저널리즘 시장이 포화 상태가 되면서 다른 미국 미디어 브랜드도 파트너 구독을 모색하고 있습니다. 기업 측면에서 Reuters와 Gannett은 Reuters의 글로벌 영향력과 Gannett의 지역적 영향력을 결합하는 묶음 구독 서비스를 공동으로 제공하기로 했습니다. 인포메이션 과 블룸버그는 몇 년 전 자사의 내부 기술 저널리즘과 블룸버그의 광범위한 비즈니스 보도를 결합한 소비자 구독 패키지를 테스트했습니다.

  • 메타와 콘텐츠 조정

    Meta and Content Moderation
    Benedict Evans

    두 가지 측면에서 콘텐츠 조정의 어려움을 이야기한다. 첫 번째는 발언이 얼마나 심각한지에 따른 스펙트럼으로, 불법, 해롭지만 합법적, 모두에게 불쾌한 것부터 일부에게만 공격적으로 느껴지는 것까지 다양하다. 두 번째 축은 ‘발행(publish)’ 개념으로, 개인적인 대화와 공공적인 게시물의 구분이 모호하며, 알고리즘이 콘텐츠를 홍보하는지 여부에 따라 책임이 달라진다.

    나는 지난 10년 동안 매우 광범위하게 논의된 이 문제들의 복잡성 중 일부만을 다루었을 뿐이다 — “나쁜 것을 제거하라”고 말하는 것은 쉽지만, 그것이 실제로 무엇을 해야 하는지를 결정해야 할 때는 훨씬 어려워진다.

  • 커뮤니티 노트에 대한 생각

    What do I think about Community Notes?
    Vitalik Buterin

    커뮤니티 노트에 대해 자세하게 설명해 놓은 글. 꽤나 긴 글이기에 기계 요약만 기록해놓는다.

    1. Community Notes란?

    • 목적: 트위터에 올라오는 트윗에 대해, 잘못된 정보나 오해를 바로잡기 위해 사용자들이 직접 추가 정보를 달아주는 시스템입니다.
    • 원래 이름: 처음에는 “Birdwatch”라는 이름으로 시작되었습니다.
    • 참여 방식: 일정 조건(예: 계정 활동 기간, 전화번호 인증 등)을 갖춘 누구나 참여할 수 있습니다. 처음에는 기존에 작성된 노트를 평가하고, 경험이 쌓이면 본인도 노트를 작성할 수 있습니다.

    2. 노트 작성 및 평가

    • 노트 작성: 사용자가 트윗에 대해 추가적인 정보를 담은 노트를 작성합니다.
    • 평가 방법: 다른 사용자들이 이 노트를 보고 “도움됨(HELPFUL)”, “약간 도움됨(SOMEWHAT_HELPFUL)”, “도움 안 됨(NOT_HELPFUL)” 등으로 평가합니다.
    • 점수 계산: 여러 사람의 평가를 종합해 노트마다 점수가 매겨집니다. 이 점수가 일정 기준(예를 들어 0.40 이상)이면 해당 노트가 트윗에 공개됩니다.

    3. 알고리즘의 특별한 점

    • 다양한 의견 반영: 단순히 ‘평균 점수’를 내는 것이 아니라, 정치적 견해나 의견이 다른 사용자들 모두가 동의하는 노트를 우대합니다.
      • 예를 들어, 한쪽 의견만 강하게 찬성하는 노트보다는, 서로 다른 관점을 가진 사람들이 모두 “도움됨”이라고 평가한 노트가 높은 점수를 받습니다.
    • 내부 변수:
      • 도움됨(helpfulness): 노트가 얼마나 유익한지를 나타내는 점수입니다.
      • 극성(polarity): 노트나 사용자가 어느 한쪽에 치우쳐 있는지를 나타내는 값입니다. 이 값이 크면 한쪽 의견에 편향되어 있다는 의미이고, 여러 정치적 입장이 모두 동의하는 노트는 극성이 낮아(또는 중립에 가까워) 높은 점수를 받습니다.
    • 투명성: 알고리즘과 평가 데이터는 공개되어 있어서, 누구나 다운로드해 실제로 어떻게 계산되는지 확인할 수 있습니다. 이는 중앙에서 일방적으로 조작하는 것이 아니라, 모두가 검증할 수 있도록 만든 시스템입니다.

    4. 시스템이 가진 장점과 한계

    • 장점:
      • 다양한 시각 반영: 여러 정치적 관점이 함께 검토하기 때문에, 한쪽에 치우친 정보보다 객관적이고 중립적인 정보를 제공할 가능성이 높습니다.
      • 투명성: 알고리즘과 데이터가 공개되어 있어 신뢰할 수 있습니다.
    • 한계:
      • 조작 위험: 만약 특정 그룹이 조직적으로 “도움 안 됨” 평가를 몰아서 하면, 유익한 노트가 부당하게 삭제될 위험도 있습니다.
      • 복잡성: 알고리즘이 여러 단계의 조건과 추가 점수 조정(예: 가짜 투표 추가, 특정 태그에 따른 점수 변화 등)을 포함하기 때문에, 모든 상황에서 쉽게 설명하기 어려울 수 있습니다.

    5. 요약

    Community Notes는 트위터 사용자들이 직접 참여해 트윗에 추가적인 사실 확인 정보를 제공하는 도구입니다.

    • 평가 시스템: 사용자들이 “도움됨” 등의 평가를 남기고, 그 점수를 기반으로 노트가 공개될지 결정됩니다.
    • 알고리즘의 특징: 단순 평균이 아니라, 다양한 정치적 시각을 고려해 중립적이고 객관적인 노트를 선택합니다.
    • 투명성: 모든 데이터와 알고리즘이 공개되어 있어서, 누구나 검증할 수 있습니다.

  • 작동하지 않던 메타 팩트체크

    Meta Drops Fact-Checking Because of Politics, but Also Because It Wasn’t Working
    Better Conflict Bulletin

    메타가 프로그램을 변경한 이유가 정치적인 것도 있지만, 프로그램이 신뢰나 규모를 달성하지 못했기 때문이라는 주장. 몇 가지 주장에 대해 근거를 정리하여 이야기한다. 읽을만한 글.

    하지만 많은 개별 팩트체커들의 훌륭한 작업에도 불구하고, 전체적인 팩트체크 프로그램은 중요한 측면에서 어려움을 겪고 있었다는 것도 사실이다. 이러한 프로그램이 제대로 작동하려면, 적어도 세 가지를 달성해야 한다:

    • 유해한 허위 정보를 정확하고 공정하게 표기할 것
    • 청중의 신뢰를 유지할 것
    • 변화를 이끌어낼 만큼 충분히 크고 빠를 것

    이 글에서는 이 세 가지에 대한 증거들을 살펴볼 것이다. 편향에 대한 반복적인 주장에도 불구하고, 팩트체커들이 대부분 상당히 정확하고 공정했다는 충분한 이유가 있다. 하지만 이 프로그램은 결코 플랫폼 규모나 속도 면에서 운영되지 않았으며, 허위 정보에 가장 많이 노출된 사람들 사이에서 빠르게 불신을 받게 되었다.

  • 미국인의 AI 이용률, 높지만 인지하지 못함

    99% of Americans use AI, but most dislike it
    Axios

    조사가 어떻게 이루어졌는지 자세히 보지는 않았지만 갤럽의 조사. 대부분 하나 이상의 AI 제품을 이용하지만 대부분 이를 인지하지 못한다는 내용.

    여론조사 결과에 따르면 미국인의 약 99%가 지난 한 주 동안 적어도 한 가지 이상의 AI 지원 제품을 사용했지만, 거의 3분의 2는 이러한 사실을 인지하지 못한 것으로 나타났습니다. 이러한 제품에는 내비게이션 앱, 개인 가상 비서, 일기 예보 앱, 스트리밍 서비스, 쇼핑 웹사이트, 소셜 미디어 플랫폼 등이 포함되었습니다. 갤럽의 수석 리서치 컨설턴트인 엘린 마에스는 이러한 현상은 “무엇이 단순한 컴퓨터 프로그램인지, 무엇이 진정한 AI이고 지능적인 것인지에 대해 많은 혼란이 있기 때문”이라고 말했습니다.