[작성자:] haeyeop

  • 오픈AI, 컴퓨터 사용 에이전트

    Computer-Using Agent
    OpenAI

    앤트로픽에 이어 OpenAI도 컴퓨터 사용(computer use) 테스트 버전을 출시했다. 수치를 봐도 인간보다 많이 부족하다는 점을 확인할 수 있지만 (실제 데모를 봐도 그렇고), 전용 API가 없이 모든 종류의 소프트웨어나 웹에서 작업을 자동화 할 수 있는 방법이다. GUI가 새로운 API가 되는 것.

    CUA(Computer-Using Agent)는 아직 초기 단계이고 한계가 있지만, 최신 벤치마크 결과를 새롭게 제시하여 전체 컴퓨터 사용 작업의 경우 OSWorld에서 38.1%의 성공률, 웹 기반 작업의 경우 WebArena에서 58.1%, WebVoyager에서 87%의 성공률을 달성했습니다. 이러한 결과는 CUA가 단일 일반 작업 공간을 사용하여 다양한 환경에서 탐색하고 운영할 수 있는 능력을 강조합니다. 

  • 중국의 생성형AI 검열 및 안전 표준

    China’s GenAI Content Security Standard: An Explainer
    China Talk

    중국의 생성형 AI 검열 및 안전 표준에 관한 내용

    • 이 표준은 31가지 genAI 위험을 정의합니다. 또한 임시 조치와 마찬가지로 이 표준은 검열 등 “콘텐츠 보안”에 초점을 맞춥니다.
    • 모델 개발자는 다음을 포함하여 모델 수명 주기 전반에 걸쳐 이러한 위험을 식별하고 완화해야 합니다.
      • 훈련 데이터 필터링,
      • 사용자 입력 모니터링,
      • 모델 출력을 모니터링합니다.
    • 이 표준은 법적 구속력은 없지만 사실상의 구속력이 될 수 있습니다.
    • 이 표준에서 요구하는 모든 테스트는 정부가 아닌 모델 개발자들이 직접 실시하거나 스스로 선택한 제3자 기관에서 실시합니다.
    • 하지만 이전 게시물 에서 설명했듯이 , 이 표준에 설명된 평가 외에도 당국은 자체적인 배포 전 테스트도 실시합니다. 따라서 이 표준을 준수하는 것은 genAI 모델을 대중에게 공개하기 위한 라이선스를 취득하는 데 필요하지만 충분한 조건은 아닙니다. 
  • 틱톡 금지 유예

    Politicians scramble to save TikTok before Sunday
    Axios

    타임라인 정리를 위해서 남겨놓은 글. 미국 대법원은 바이트댄스가 TikTok을 판매하거나 폐쇄하도록 강제하는 법안을 거부했다. 상당한 벌금(TikTok에 접속할 수 있도록 허용한 사용자당 5,000달러, 미국에는 1억 5천만 명)에 노출된 서비스 제공업체들이 철수를 시작했고, Apple과 Google은 미국 사용자를 위해 앱 스토어에서 TikTok을 삭제했다. 당황한 미국 사용자들은 중국 앱인 샤오홍슈로 잠시 몰려들었고, 이 앱은 중국어로만 되어 있음에도 불구하고 앱스토어 차트 상위권에 오르기도 했다.

    ByteDance가 TikTok 지분을 처분하지 않은 이유와 그렇게 하기 위한 협상조차 시작하지 않은 이유는 알 수 없습니다. 아마도 선택에 의해 비활성 상태일 수도 있고, 중국 정부의 명령에 의한 것일 수도 있습니다. 어느 쪽이든, 많은 반대 세력이 무너지는 듯합니다.

  • 메타의 지출 확대

    Meta to spend up to $65 billion this year to power AI goals, Zuckerberg says
    Reuters

    600-650달러의 자본 지출을 계획하고 있으며, 130만 개 이상의 GPU를 갖출 것이라고 말했다. 2024년 CAPEX 가이드는 380-400억이었다고(매출의 약 24% 수준). 스타게이트 프로젝트 발표 이후라 2위에 머무르지 않겠다는 의지를 시장에 보내는 신호라는 말도 있음

    메타 플랫폼스는 AI 인프라 확장에 올해 최대 650억 달러를 지출할 계획이라고 CEO 마크 주커버그가 금요일에 밝혔습니다. 이는 기술을 장악하기 위한 경쟁에서 경쟁사인OpenAI와 구글에 맞서 회사의 입지를 강화하기 위한 것입니다. 투자의 일환으로 Meta는 인공지능 분야 채용을 ​​늘리고 맨해튼의 상당 부분을 커버할 수 있을 만큼 큰 2기가와트 이상의 데이터 센터를 구축할 예정입니다.

  • 커뮤니티 노트에 대한 생각

    What do I think about Community Notes?
    Vitalik Buterin

    커뮤니티 노트에 대해 자세하게 설명해 놓은 글. 꽤나 긴 글이기에 기계 요약만 기록해놓는다.

    1. Community Notes란?

    • 목적: 트위터에 올라오는 트윗에 대해, 잘못된 정보나 오해를 바로잡기 위해 사용자들이 직접 추가 정보를 달아주는 시스템입니다.
    • 원래 이름: 처음에는 “Birdwatch”라는 이름으로 시작되었습니다.
    • 참여 방식: 일정 조건(예: 계정 활동 기간, 전화번호 인증 등)을 갖춘 누구나 참여할 수 있습니다. 처음에는 기존에 작성된 노트를 평가하고, 경험이 쌓이면 본인도 노트를 작성할 수 있습니다.

    2. 노트 작성 및 평가

    • 노트 작성: 사용자가 트윗에 대해 추가적인 정보를 담은 노트를 작성합니다.
    • 평가 방법: 다른 사용자들이 이 노트를 보고 “도움됨(HELPFUL)”, “약간 도움됨(SOMEWHAT_HELPFUL)”, “도움 안 됨(NOT_HELPFUL)” 등으로 평가합니다.
    • 점수 계산: 여러 사람의 평가를 종합해 노트마다 점수가 매겨집니다. 이 점수가 일정 기준(예를 들어 0.40 이상)이면 해당 노트가 트윗에 공개됩니다.

    3. 알고리즘의 특별한 점

    • 다양한 의견 반영: 단순히 ‘평균 점수’를 내는 것이 아니라, 정치적 견해나 의견이 다른 사용자들 모두가 동의하는 노트를 우대합니다.
      • 예를 들어, 한쪽 의견만 강하게 찬성하는 노트보다는, 서로 다른 관점을 가진 사람들이 모두 “도움됨”이라고 평가한 노트가 높은 점수를 받습니다.
    • 내부 변수:
      • 도움됨(helpfulness): 노트가 얼마나 유익한지를 나타내는 점수입니다.
      • 극성(polarity): 노트나 사용자가 어느 한쪽에 치우쳐 있는지를 나타내는 값입니다. 이 값이 크면 한쪽 의견에 편향되어 있다는 의미이고, 여러 정치적 입장이 모두 동의하는 노트는 극성이 낮아(또는 중립에 가까워) 높은 점수를 받습니다.
    • 투명성: 알고리즘과 평가 데이터는 공개되어 있어서, 누구나 다운로드해 실제로 어떻게 계산되는지 확인할 수 있습니다. 이는 중앙에서 일방적으로 조작하는 것이 아니라, 모두가 검증할 수 있도록 만든 시스템입니다.

    4. 시스템이 가진 장점과 한계

    • 장점:
      • 다양한 시각 반영: 여러 정치적 관점이 함께 검토하기 때문에, 한쪽에 치우친 정보보다 객관적이고 중립적인 정보를 제공할 가능성이 높습니다.
      • 투명성: 알고리즘과 데이터가 공개되어 있어 신뢰할 수 있습니다.
    • 한계:
      • 조작 위험: 만약 특정 그룹이 조직적으로 “도움 안 됨” 평가를 몰아서 하면, 유익한 노트가 부당하게 삭제될 위험도 있습니다.
      • 복잡성: 알고리즘이 여러 단계의 조건과 추가 점수 조정(예: 가짜 투표 추가, 특정 태그에 따른 점수 변화 등)을 포함하기 때문에, 모든 상황에서 쉽게 설명하기 어려울 수 있습니다.

    5. 요약

    Community Notes는 트위터 사용자들이 직접 참여해 트윗에 추가적인 사실 확인 정보를 제공하는 도구입니다.

    • 평가 시스템: 사용자들이 “도움됨” 등의 평가를 남기고, 그 점수를 기반으로 노트가 공개될지 결정됩니다.
    • 알고리즘의 특징: 단순 평균이 아니라, 다양한 정치적 시각을 고려해 중립적이고 객관적인 노트를 선택합니다.
    • 투명성: 모든 데이터와 알고리즘이 공개되어 있어서, 누구나 검증할 수 있습니다.

  • 작동하지 않던 메타 팩트체크

    Meta Drops Fact-Checking Because of Politics, but Also Because It Wasn’t Working
    Better Conflict Bulletin

    메타가 프로그램을 변경한 이유가 정치적인 것도 있지만, 프로그램이 신뢰나 규모를 달성하지 못했기 때문이라는 주장. 몇 가지 주장에 대해 근거를 정리하여 이야기한다. 읽을만한 글.

    하지만 많은 개별 팩트체커들의 훌륭한 작업에도 불구하고, 전체적인 팩트체크 프로그램은 중요한 측면에서 어려움을 겪고 있었다는 것도 사실이다. 이러한 프로그램이 제대로 작동하려면, 적어도 세 가지를 달성해야 한다:

    • 유해한 허위 정보를 정확하고 공정하게 표기할 것
    • 청중의 신뢰를 유지할 것
    • 변화를 이끌어낼 만큼 충분히 크고 빠를 것

    이 글에서는 이 세 가지에 대한 증거들을 살펴볼 것이다. 편향에 대한 반복적인 주장에도 불구하고, 팩트체커들이 대부분 상당히 정확하고 공정했다는 충분한 이유가 있다. 하지만 이 프로그램은 결코 플랫폼 규모나 속도 면에서 운영되지 않았으며, 허위 정보에 가장 많이 노출된 사람들 사이에서 빠르게 불신을 받게 되었다.

  • 메타의 항복

    Meta surrenders to the right on speech
    Platformer

    어떤 선택을 해도 욕을 먹게 되니 그런거 아닐까

    마크 주커버그 CEO는 이러한 조치들이 회사에 대한 긍정적인 반응을 이끌어낼 것이라 기대했다. 특히, 2020년 트럼프가 패배한 후 권력을 되찾은 민주당의 호의를 얻을 것으로 예상했다. 그러나 현실은 달랐다. 페이스북에 대한 반감은 여전히 초당적으로 강하게 남아 있었다. 공화당은 해당 플랫폼이 우파를 불균형적으로 처벌한다고 비난했다. 우파는 좌파보다 더 많은 허위 정보와 혐오 발언을 게시하는 경향이 있었기 때문이다. 반면, 민주당은 미국의 정치적 양극화와 민주주의의 붕괴에 대한 책임을 그에게 돌렸다. 그리고 모든 진영이 그의 앱이 아동에게 미치는 해악에 대해 맹비난했다. 이 문제로 인해 현재 미국 42개 주의 법무장관들이 그를 상대로 소송을 제기한 상태다.

  • 콘텐츠 조정, 주커버그의 전환

    How Zuckerberg pivoted on content limits
    Axios

    쉽지 않은 문제다

    페이스북, 인스타그램, 트위터, 틱톡과 같은 소셜미디어 거대 기업의 창립자들은 자신들이 결국 산업에서 “콘텐츠 조정(content moderation)”이라 불리는 일을 하게 될 것이라고 예상하지 못했다. 하지만 많은 비평가들, 그리고 이제는 주커버그조차도 이를 “검열(censorship)”이라며 비판하고 있다. 온라인에서 발언을 관리하는 것은 제대로 하려면 막대한 비용이 든다. 모든 사람을 만족시키는 것은 불가능하며, 실수를 피할 수도 없다. 게다가 사용자들의 요구는 끊임없이 변한다.

  • AI와 컴퓨터사이언스 전공

    OpenAI’s o3 model freaks out comp sci majors
    Axios

    기사에 조지아 공대 교수는 “새로할게 많으니 너무 걱정하지 말라”라고 이야기하지만 일정 수준에 도달하지 못하는 전공생은 (지금도 그렇지만) 지금보다도 더 어려워지겠다. 전공별로 부침이 있는걸 보면 인생 알기 힘들다

    X의 한 사용자는 “CS 졸업생들은 솔직히 끝난 것 같다”고 말했다. 또 다른 사용자는 “진로를 바꿔야 할 수도 있다”고 언급했다. 한 사용자는 “이제 OpenAI의 o3가 나왔는데, CS 학부 신입생인 나는 어떻게 해야 하죠?”라고 “r/singularity” 서브레딧에서 질문했다. OpenAI에 따르면, o3는 한 수학 벤치마크에서 “인간 전문가” 수준보다 높은 점수를 기록했다. 또한, 코딩 벤치마크에서는 OpenAI의 최고 과학 책임자의 점수를 뛰어넘었다. 그리고 이 모델은 앞으로 더욱 발전할 것이다.

  • 메타의 팩트체크 종료

    Meta is ending its fact-checking program in favor of a ‘community notes’ system similar to X’s
    NBC News

    메타는 IFCN(International Fact-Checking Network) 인증을 받은 독립적인 팩트체킹 기관들과 파트너십을 맺고, 팩트체커가 정확성을 평가한 뒤 등급을 부여하는 방식을 사용했다. 하지만 이가 표현의 자유를 억압한다는 논란이 있었고, 오류나 일관성 측면에서 비판도 제기되었다. 하지만 이를 X와 유사한 커뮤니티 노트(크라우드 소싱 기반 팩트 체크 시스템) 시스템으로 대체한다고 밝혔다.

    “우리는 본래의 방향으로 돌아가 실수를 줄이고, 정책을 단순화하며, 우리 플랫폼에서 표현의 자유를 회복하는 데 집중할 것입니다.” 주커버그는 영상에서 이렇게 말했다. “좀 더 구체적으로 말씀드리자면, 첫째, 팩트체커를 없애고 X와 유사한 커뮤니티 노트 시스템으로 대체할 것입니다. 먼저 미국에서 시작할 계획입니다.”