[작성자:] haeyeop

  • 구글의 TAC와 애플 검색

    UNITED STATES OF AMERICA v. GOOGLE LLC

    구글의 TAC 관련 소송에서 애플의 에디큐가 법원에 제출한 선언문의 일부 내용. 애플이 검색시장에 뛰어들 것이라는 시나리오에 관해 “아니요”, “저희는 계속 돈 받고 싶은데요”라고 답변함

    원고 측(미국 정부 및 주 정부)은, Apple이 Google과의 수익 공유 계약이 없어지면 자체 검색 엔진을 개발하거나 검색 광고 시장에 진출할 것이라고 가정하고 있습니다. 그러나 Apple의 증인들은 이러한 가정이 틀렸다는 것을 설명할 수 있습니다. 그 증거는 Apple이 검색 엔진 시장에 진입하는 데 직면할 도전 과제, Apple이 지금까지 검색 엔진을 개발하지 않은 이유, 그리고 향후 어떤 구제 조치가 내려지든 Apple이 검색 엔진을 개발할 가능성이 낮은 이유를 포함할 것입니다.

    Apple이 검색 엔진을 만들 계획이 없는 이유는 여러 가지가 있습니다. 첫째, Apple은 다른 성장 분야에 집중하고 있습니다. 검색 엔진을 개발하려면 자본 투자와 인력 배분이 필요하며, 이는 수십억 달러의 비용과 수년간의 시간이 소요될 것입니다. 둘째, 검색 시장은 최근과 앞으로의 인공지능(AI) 발전으로 인해 빠르게 변화하고 있습니다. 이러한 상황에서 검색 엔진 개발에 대규모 자원을 투입하는 것은 경제적으로 위험할 수 있습니다. 셋째, 경쟁력 있는 검색 엔진을 구축하려면 타겟 광고를 판매할 플랫폼이 필요하지만, 이는 Apple의 핵심 사업 모델이 아닙니다. Apple은 이를 운영하기 위한 충분한 전문 인력과 인프라를 보유하고 있지 않으며, 현재 보유한 일부 광고 사업(예: App Store 광고)과는 성격이 완전히 다릅니다. 또한, Apple은 오랜 기간 동안 개인정보 보호를 중요한 원칙으로 삼아왔기 때문에 검색 광고 사업에 진출할 경우 이러한 원칙과 균형을 맞추는 것이 어려울 수 있습니다.

  • 2024년 LLM에 관해 알게된 것

    Things we learned about LLMs in 2024
    Simon Willison’s Weblog

    좋은 글. 목록만 가져와서 인용해놓는다.

    • GPT-4의 한계가 완전히 깨졌다
    • 일부 GPT-4 모델은 내 노트북에서도 실행된다
    • 경쟁과 효율성 증가 덕분에 LLM 가격이 폭락했다
    • 멀티모달 비전(이미지 처리)은 보편화되었고, 오디오 및 비디오 모델도 등장하기 시작했다
    • 음성과 실시간 카메라 모드는 SF에서 현실이 되었다
    • 프롬프트 기반 애플리케이션 생성이 이미 일반화되었다
    • 최고의 모델에 대한 보편적 접근은 몇 달 만에 끝났다
    • “에이전트”는 여전히 제대로 구현되지 않았다
    • 평가(Evals)는 정말 중요하다
    • Apple Intelligence는 별로지만, Apple의 MLX 라이브러리는 뛰어나다
    • 추론 확장형(reasoning) 모델이 부상했다
    • 현재 최고의 LLM이 중국에서 600만 달러 미만의 비용으로 훈련되었을까?
    • 환경적 영향이 개선되었다
    • 환경적 영향이 훨씬 더 악화되었다
    • 2024년은 “조악한 품질(sloppy)”의 해였다
    • 합성 학습 데이터가 효과적으로 작동한다
    • LLM 사용이 더 어려워졌다
    • 지식이 극도로 불균등하게 분포되어 있다
    • LLM은 더 나은 비판이 필요하다
    • 2024년 내 블로그에서 “LLMs” 태그로 게시된 모든 글
  • 메타의 팩트체크 종료

    Meta is ending its fact-checking program in favor of a ‘community notes’ system similar to X’s
    NBC News

    메타는 IFCN(International Fact-Checking Network) 인증을 받은 독립적인 팩트체킹 기관들과 파트너십을 맺고, 팩트체커가 정확성을 평가한 뒤 등급을 부여하는 방식을 사용했다. 하지만 이가 표현의 자유를 억압한다는 논란이 있었고, 오류나 일관성 측면에서 비판도 제기되었다. 하지만 이를 X와 유사한 커뮤니티 노트(크라우드 소싱 기반 팩트 체크 시스템) 시스템으로 대체한다고 밝혔다.

    “우리는 본래의 방향으로 돌아가 실수를 줄이고, 정책을 단순화하며, 우리 플랫폼에서 표현의 자유를 회복하는 데 집중할 것입니다.” 주커버그는 영상에서 이렇게 말했다. “좀 더 구체적으로 말씀드리자면, 첫째, 팩트체커를 없애고 X와 유사한 커뮤니티 노트 시스템으로 대체할 것입니다. 먼저 미국에서 시작할 계획입니다.”

  • AI와 컴퓨터사이언스 전공

    OpenAI’s o3 model freaks out comp sci majors
    Axios

    기사에 조지아 공대 교수는 “새로할게 많으니 너무 걱정하지 말라”라고 이야기하지만 일정 수준에 도달하지 못하는 전공생은 (지금도 그렇지만) 지금보다도 더 어려워지겠다. 전공별로 부침이 있는걸 보면 인생 알기 힘들다

    X의 한 사용자는 “CS 졸업생들은 솔직히 끝난 것 같다”고 말했다. 또 다른 사용자는 “진로를 바꿔야 할 수도 있다”고 언급했다. 한 사용자는 “이제 OpenAI의 o3가 나왔는데, CS 학부 신입생인 나는 어떻게 해야 하죠?”라고 “r/singularity” 서브레딧에서 질문했다. OpenAI에 따르면, o3는 한 수학 벤치마크에서 “인간 전문가” 수준보다 높은 점수를 기록했다. 또한, 코딩 벤치마크에서는 OpenAI의 최고 과학 책임자의 점수를 뛰어넘었다. 그리고 이 모델은 앞으로 더욱 발전할 것이다.

  • 캘리포티아 아동소셜미디어법안 일부 집행금지

    Judge blocks parts of California bid to protect kids from social media
    Courthouse News Service

    연방판사는 아동을 소셜미디어 중독으로부터 보호하는 법안(SB 976)의 핵심 조항을 시행하지 못하도록 캘리포니아주에 금지 명령을 내렸다. 이는 해당 법안이 기술 기업들의 수정헌법 제1조(표현의 자유) 권리를 침해할 가능성이 있다고 판단했기 때문이다. 아무리 목적이 선해보여도 규제와 관련해서 명확한 범위를 정하는 것이 쉬운일은 아니다.

    판사는 아동 보호가 법적으로 중요한 명분이며 여러 과학적 연구에 의해 뒷받침되는 점은 인정했지만, 이 법안이 목적을 달성하기에 충분히 정밀하게 설계되지 않았다고 지적했다.

    “NetChoice가 지적한 것처럼, ESPN과 같은 스포츠 웹사이트는 미성년자가 좋아하는 팀이 챔피언십에서 우승했다는 알림을 금지 시간대에 보낼 수 있지만, 페이스북은 동일한 알림을 보낼 수 없다.”
    – 판결문에서 다빌라 판사

    또한, 미성년자 계정 수 공개 요구 조항도 실효성이 부족하다고 지적했다.

    “소셜미디어 플랫폼을 이용하는 미성년자 수를 공개하는 것이 미성년자의 소셜미디어 사용을 줄이는 데 도움이 된다는 근거가 없다.”
    – 다빌라 판사

  • 컴퓨터를 사용하는 AI

    클로드에서 출시한 컴퓨터 이용(computer use) 기능. 인공지능이 브라우징, 클릭, 텍스트 입력을 수행할 수 있게 되면서 AI 에이전트가 일반화 될 것이라고 본다. 프로그래밍에서와 유사하게 속도가 느리고 보안 문제가 발생할 가능성은 있지만 다양한 솔루션으로 발전할 거라고 예상한다.

  • EU 개인정보 보호와 메타

    EDPB opinion on AI models: GDPR principles support responsible AI
    European Data Protection Board

    이제는 관심을 더 가지려고 하지만 보던게 있어 보게되는 유럽 규제 사례. 작년 7월 메타는 개인정보보호법 적용이 명확하지 않아 최신 오픈소스 언어모델(Llama) 출시를 하지 않는다고 했으나, EU는 24년 말 지침에 관해 이야기했다. 규제의 문제라고 할 수 있는 것들, 명확하게 설명하는 것이 느리고 규정이 모호한 부분이 많다는 점. 아래는 기계 요약

    1. AI 모델이 익명으로 간주될 수 있는 기준
      AI 모델이 익명성(Anonymity)을 갖추려면 개인을 직접 또는 간접적으로 식별할 가능성이 매우 낮아야 한다.
      또한, 사용자의 쿼리를 통해 개인 데이터를 추출할 가능성도 매우 낮아야 한다.
      익명성을 입증하기 위한 방법에 대한 비규범적(non-prescriptive)이고 포괄적이지 않은(non-exhaustive) 예시 목록이 제공됨.
    2. AI 모델 개발 및 배포 시 ‘정당한 이익(Legitimate Interest)’을 법적 근거로 사용할 수 있는지
      AI 모델이 개인 데이터를 처리할 때 ‘정당한 이익’을 법적 근거로 인정받을 수 있는지 여부는 사례별로 평가해야 한다.
      평가를 위한 3단계 테스트가 제시되었으며, 대화형 AI 및 사이버 보안 강화 AI 같은 경우 사용자에게 이익이 되는 서비스라면 ‘정당한 이익’을 기반으로 운영될 수도 있음.
      단, 데이터 처리가 ‘엄격히 필요’하다는 점을 입증해야 하며, 개인의 권리와 이익의 균형을 맞춰야 한다.
    3. AI 모델이 사용자의 개인 데이터를 처리할 수 있는지에 대한 기준
      사용자가 자신의 데이터가 AI 모델에 의해 사용될 것이라고 ‘합리적으로 예상할 수 있는지’를 평가하는 기준을 제시함.
      개인 데이터가 공개적으로 이용 가능한 정보인지 여부
      데이터가 어떤 맥락에서 수집되었으며, 이후 어떻게 활용될 가능성이 있는지
      개인이 자신의 데이터가 온라인에 공개되어 있다는 사실을 알고 있는지
    4. 불법적으로 수집된 데이터로 개발된 AI 모델의 적법성
      AI 모델이 불법적으로 수집된 개인 데이터를 활용해 개발되었다면, 해당 모델의 사용이 적법하지 않을 수 있다.
      단, 모델이 완전히 익명화되었다면 이러한 문제를 회피할 수 있음.

  • 아폴로, 동영상 이해 모델

    Apollo: An Exploration of Video Understanding in Large Multimodal Models

    대규모 멀티모달 모델(LMM)에서 비디오 이해에 초점을 맞춘 모델 아폴로. 1시간 분량의 동영상을 효율적으로 인식할 수 있다고 말한다. 아래는 초록.

    대규모 멀티모달 모델(LMM)에 비디오 인식 기능을 빠르게 통합했음에도 불구하고, 비디오 이해를 주도하는 기본 메커니즘은 여전히 ​​잘 이해되지 않았습니다. 결과적으로 이 도메인의 많은 설계 결정은 적절한 정당화나 분석 없이 내려집니다. 이러한 모델을 훈련하고 평가하는 데 드는 높은 연산 비용과 제한된 공개 연구가 결합되어 비디오 LMM의 개발을 방해합니다. 이를 해결하기 위해 LMM에서 비디오 이해를 효과적으로 주도하는 요소를 파악하는 데 도움이 되는 포괄적인 연구를 제시합니다. 비디오 LMM 연구와 관련된 높은 연산 요구 사항에 대한 주요 기여 요인을 비판적으로 검토하고, 더 작은 모델과 데이터 세트(최대 임계 크기)에서 내린 설계 및 훈련 결정이 더 큰 모델로 효과적으로 전환되는 스케일링 일관성을 발견합니다. 이러한 통찰력을 활용하여 비디오 샘플링, 아키텍처, 데이터 구성, 훈련 일정 등을 포함한 비디오 LMM의 많은 비디오 관련 측면을 탐구했습니다. 예를 들어, 훈련 중 fps 샘플링이 균일한 프레임 샘플링보다 훨씬 바람직하고 어떤 비전 인코더가 비디오 표현에 가장 적합한지 보여주었습니다. 이러한 결과를 바탕으로 다양한 모델 크기에서 우수한 성능을 달성하는 최첨단 LMM 제품군인 Apollo를 소개합니다. 당사 모델은 1시간 분량의 비디오를 효율적으로 인식할 수 있으며, Apollo-3B는 LongVideoBench에서 인상적인 55.1을 기록하여 대부분의 기존 7B 모델을 앞지릅니다. Apollo-7B는 MLVU에서 70.9, Video-MME에서 63.3을 기록한 7B LMM과 비교했을 때 최첨단입니다.

  • 스포티파이, 유령 아티스트

    The Ghosts in the Machine
    Harpers

    스포티파이가 인기있는 플레이리스트에서 아티스트 곡을 저렴한 자체제작 곡으로 바꾸고 있다는 의혹에 관한 글.

    Spotify는 단순히 여러 음악 제작사들과 협력하는 것뿐만 아니라, ‘Spotify가 재정적으로 이익을 얻을 수 있는 음악’을 제공하는 내부 팀을 운영하며, 이들이 플랫폼 내 플레이리스트에 특정 트랙을 배치하는 역할을 한다는 사실을 발견했다. 이를 통해 Spotify는 저비용 음악의 스트리밍 비율을 증가시키려 하고 있으며, 이 프로그램의 이름은 ‘Perfect Fit Content(PFC)’다.”

  • 콘텐츠 조정, 주커버그의 전환

    How Zuckerberg pivoted on content limits
    Axios

    쉽지 않은 문제다

    페이스북, 인스타그램, 트위터, 틱톡과 같은 소셜미디어 거대 기업의 창립자들은 자신들이 결국 산업에서 “콘텐츠 조정(content moderation)”이라 불리는 일을 하게 될 것이라고 예상하지 못했다. 하지만 많은 비평가들, 그리고 이제는 주커버그조차도 이를 “검열(censorship)”이라며 비판하고 있다. 온라인에서 발언을 관리하는 것은 제대로 하려면 막대한 비용이 든다. 모든 사람을 만족시키는 것은 불가능하며, 실수를 피할 수도 없다. 게다가 사용자들의 요구는 끊임없이 변한다.