[카테고리:] IT

  • AI 컴퓨터 사용 기능의 문제

    Thoughts on how Operator will play out
    Steven Sinofsky

    컴퓨터 사용 기능이 가질 수 있는 문제. 신원대행, 오류, 호환성 등 문제가 있을 것으로 예상. 하지만 자동화를 위한 생태계가 발전한다면 자동화를 위한 API를 제공하거나, 고려한 디자인으로 변화할 수도 있을 것이라 말한다. 그럼에도 (인간)이용자의 인게이지먼트가 중요한 앱들은 차단할 것이라 예상.

    첫째, 모든 실수는 자신의 실수입니다. 그리고 실수한 것처럼 가치 있는 대부분의 작업에는 실행 취소 버튼이 없습니다.

    둘째, 오늘날 자동화할 가치가 있는 앱은 운영자가 의도적으로 Chrome을 시뮬레이션하거나 더 교묘한 작업을 하지 않는 한 이런 종류의 로그인 세션을 거의 확실하게 비활성화할 것입니다. 주로 첫 번째 문제와 앱이 자동화가 잘못되는 것을 원하지 않기 때문입니다. 또한 앱, 특히 사용량에 따라 달라지는 앱이 자동화에 항상 저항해 온 것과 같은 이유, 즉 사용자의 흐름 중간에 끼어들어 더 많은 선택과 옵션, 방해 요소를 제공하고자 하는 이유도 있습니다. 그 외에도 화면 읽기/스크래핑/마우스 추적 자동화가 항상 실패했던 이유와 동일한 이유, 즉 앱이 변화하고 그 변화를 따라잡는 것이 불가능하다는 점 등 여러 가지 이유가 있습니다. 스크립트가 깨집니다.

  • 노동 시장에서 기술에 의한 파괴적 변화

    Technological Disruption in the Labor Market
    NBER

    과거 범용기술의 파급력이 더 컸다는 내용인데, AI도 비슷한 규모의 범용 기술이 될 수 있기에 평가는 이르다고 말한다. 하지만 노동시장 변화가 가속화되고 있는 네 가지 징후를 이야기한다.

    이 논문은 미국 노동시장에서 과거에 발생한 기술적 혼란의 사례들을 탐구하면서, 인공지능(AI)이 미래에 미칠 가능성이 있는 영향을 예측하기 위한 교훈을 얻고자 합니다. 우리는 1세기 이상에 걸쳐 미국 노동시장 구조의 변화를 측정하였습니다. 놀랍게도, 변화의 속도는 시간이 지남에 따라 느려진 것으로 나타났습니다. 1990년부터 2017년까지의 기간은 1880년 이후 측정한 이전의 어떤 기간보다도 덜 혼란스러웠습니다. 이러한 상대적인 둔화는 오늘날 노동시장이 안정되어 있기 때문이 아니라, 오히려 과거에 일어난 변화들이 매우 심오했기 때문입니다. 증기력이나 전기와 같은 범용 기술(GPT)은 20세기 노동시장을 극적으로 혼란시켰으나, 그 변화는 수십 년에 걸쳐 진행되었습니다. 우리는 AI가 과거의 파괴적 혁신들과 비슷한 규모의 범용 기술이 될 수 있다고 주장하며, 이는 AI의 전체적인 영향을 평가하기에는 아직 시기상조임을 의미합니다. 그럼에도 불구하고, 기술 변화로 인해 최근 노동시장 변화의 속도가 가속화되었다는 네 가지 징후를 제시합니다. 첫째, 노동시장은 더 이상 양극화되지 않고 있습니다 — 저임금 및 중간 임금 직종의 고용이 감소하는 반면, 고임금 직종의 고용은 증가하였습니다. 둘째, 저임금 서비스직의 고용 성장이 정체되었습니다. 셋째, 소프트웨어 및 컴퓨터 관련 직종의 성장에 힘입어 2010년 이후 STEM(과학, 기술, 공학, 수학) 직종의 고용 비중이 50% 이상 증가하였습니다. 넷째, 온라인 소매의 기술 발전으로 인해 지난 10년간 소매 판매 직종의 고용이 25% 감소하였습니다. 팬데믹 이후 노동시장은 매우 빠르게 변화하고 있으며, 이러한 변화의 빠른 속도가 앞으로도 지속될 것인지는 중요한 문제입니다.

  • 실리콘벨리가 트럼프로 돌아선 이유

    How Democrats Drove Silicon Valley Into Trump’s Arms
    NYT

    매우 긴 글이지만 심심할 때 보면 재미있는 내용. 왜 친민주당 성향이었던 실리콘벨리가 트럼프로 돌아섰는지에 관해 마크 안데르센이 인터뷰한다.

    그들은 암호화폐를 죽이려고 엄청난 테러 캠페인을 벌였습니다. 그런 다음 AI를 죽이려고 비슷한 캠페인을 시작했습니다. 그때 우리는 정치에 개입해야 한다는 것을 깨달았습니다. 암호화폐 공격은 너무 이상해서 어떻게 해야 할지 몰랐습니다. 우리는 그저 통과되기를 바랐지만 그렇지 않았습니다. 하지만 그들이 AI에 대해서도 같은 일을 하겠다고 위협했을 때 우리는 정치에 개입해야 한다는 것을 깨달았습니다. 그런 다음 우리는 두 번째 임기라는 절대적으로 무서운 전망에 맞서게 되었습니다.

  • 오픈AI, 컴퓨터 사용 에이전트

    Computer-Using Agent
    OpenAI

    앤트로픽에 이어 OpenAI도 컴퓨터 사용(computer use) 테스트 버전을 출시했다. 수치를 봐도 인간보다 많이 부족하다는 점을 확인할 수 있지만 (실제 데모를 봐도 그렇고), 전용 API가 없이 모든 종류의 소프트웨어나 웹에서 작업을 자동화 할 수 있는 방법이다. GUI가 새로운 API가 되는 것.

    CUA(Computer-Using Agent)는 아직 초기 단계이고 한계가 있지만, 최신 벤치마크 결과를 새롭게 제시하여 전체 컴퓨터 사용 작업의 경우 OSWorld에서 38.1%의 성공률, 웹 기반 작업의 경우 WebArena에서 58.1%, WebVoyager에서 87%의 성공률을 달성했습니다. 이러한 결과는 CUA가 단일 일반 작업 공간을 사용하여 다양한 환경에서 탐색하고 운영할 수 있는 능력을 강조합니다. 

  • 스타게이트 프로젝트

    Announcing The Stargate Project
    OpenAI

    큰 뉴스였기에 기억하기 위한 용도로 남겨놓는 기사. 수많은 의문이 제기되는 프로젝트. 실제로 돈이 없다는 이야기도 많고, 기술이 빠르게 변하는데 투자 지출 수치 자체가 적절한지에 대한 의문도 많다.

    Stargate Project는 향후 4년 동안 미국에서 OpenAI를 위한 새로운 AI 인프라를 구축하기 위해 5,000억 달러를 투자하려는 새로운 회사입니다. 우리는 즉시 1,000억 달러를 배치하기 시작할 것입니다. 이 인프라는 AI 분야에서 미국의 리더십을 확보하고, 수십만 개의 미국 일자리를 창출하며, 전 세계에 막대한 경제적 이익을 창출할 것입니다. 이 프로젝트는 미국의 재산업화를 지원할 뿐만 아니라 미국과 동맹국의 국가 안보를 보호하는 전략적 역량을 제공할 것입니다.

  • 메타의 지출 확대

    Meta to spend up to $65 billion this year to power AI goals, Zuckerberg says
    Reuters

    600-650달러의 자본 지출을 계획하고 있으며, 130만 개 이상의 GPU를 갖출 것이라고 말했다. 2024년 CAPEX 가이드는 380-400억이었다고(매출의 약 24% 수준). 스타게이트 프로젝트 발표 이후라 2위에 머무르지 않겠다는 의지를 시장에 보내는 신호라는 말도 있음

    메타 플랫폼스는 AI 인프라 확장에 올해 최대 650억 달러를 지출할 계획이라고 CEO 마크 주커버그가 금요일에 밝혔습니다. 이는 기술을 장악하기 위한 경쟁에서 경쟁사인OpenAI와 구글에 맞서 회사의 입지를 강화하기 위한 것입니다. 투자의 일환으로 Meta는 인공지능 분야 채용을 ​​늘리고 맨해튼의 상당 부분을 커버할 수 있을 만큼 큰 2기가와트 이상의 데이터 센터를 구축할 예정입니다.

  • 미국의 암호화페 정책 재설정

    SEC Crypto 2.0: Acting Chairman Uyeda Announces Formation of New Crypto Task Force
    U.S. SEC

    관심을 잘 안 가지게 되는 암호화폐이지만, 정책적 변화로 인해 규정을 준수하고 제도권 내로 자리잡게 되는 암호화폐가 나오게 될까? 암호화폐는 이론적인 부분과 현실에서 일치되지 않는 부분이 많은 느낌

    오늘 SEC 대행 의장 마크 T. 우예다는 암호화폐 자산에 대한 포괄적이고 명확한 규제 프레임워크를 개발하는 데 전념하는 암호화폐 태스크포스를 출범시켰습니다. 헤스터 피어스 위원이 태스크포스를 이끌 것입니다. 대행 의장의 수석 고문인 리처드 개버트와 대행 의장의 수석 정책 고문인 테일러 애셔가 각각 태스크포스의 수석 보좌관과 수석 정책 고문을 맡을 것입니다.



  • 동영상 모델 비교

    Google의 새로운 동영상 생성기인 Veo 2, OpenAI의 Sora보다 앞서 있다고 평가받는다. 레딧에 올라온 여러 동영상 생성기 비교 영상

  • 아폴로, 동영상 이해 모델

    Apollo: An Exploration of Video Understanding in Large Multimodal Models

    대규모 멀티모달 모델(LMM)에서 비디오 이해에 초점을 맞춘 모델 아폴로. 1시간 분량의 동영상을 효율적으로 인식할 수 있다고 말한다. 아래는 초록.

    대규모 멀티모달 모델(LMM)에 비디오 인식 기능을 빠르게 통합했음에도 불구하고, 비디오 이해를 주도하는 기본 메커니즘은 여전히 ​​잘 이해되지 않았습니다. 결과적으로 이 도메인의 많은 설계 결정은 적절한 정당화나 분석 없이 내려집니다. 이러한 모델을 훈련하고 평가하는 데 드는 높은 연산 비용과 제한된 공개 연구가 결합되어 비디오 LMM의 개발을 방해합니다. 이를 해결하기 위해 LMM에서 비디오 이해를 효과적으로 주도하는 요소를 파악하는 데 도움이 되는 포괄적인 연구를 제시합니다. 비디오 LMM 연구와 관련된 높은 연산 요구 사항에 대한 주요 기여 요인을 비판적으로 검토하고, 더 작은 모델과 데이터 세트(최대 임계 크기)에서 내린 설계 및 훈련 결정이 더 큰 모델로 효과적으로 전환되는 스케일링 일관성을 발견합니다. 이러한 통찰력을 활용하여 비디오 샘플링, 아키텍처, 데이터 구성, 훈련 일정 등을 포함한 비디오 LMM의 많은 비디오 관련 측면을 탐구했습니다. 예를 들어, 훈련 중 fps 샘플링이 균일한 프레임 샘플링보다 훨씬 바람직하고 어떤 비전 인코더가 비디오 표현에 가장 적합한지 보여주었습니다. 이러한 결과를 바탕으로 다양한 모델 크기에서 우수한 성능을 달성하는 최첨단 LMM 제품군인 Apollo를 소개합니다. 당사 모델은 1시간 분량의 비디오를 효율적으로 인식할 수 있으며, Apollo-3B는 LongVideoBench에서 인상적인 55.1을 기록하여 대부분의 기존 7B 모델을 앞지릅니다. Apollo-7B는 MLVU에서 70.9, Video-MME에서 63.3을 기록한 7B LMM과 비교했을 때 최첨단입니다.

  • 새로운 GPT O3 모델

    OpenAI delivers the jump?
    Benedict Evans

    오픈AI의 새로운 모델 O3가 복잡한 추론을 테스트하도록 설계된 ARC AGI 벤치에서 매우 높은 성적을 거두었다. GPT4o는 5%, O1은 20%, O3는 고효율로 76%, 더 많은 컴퓨팅 파워로 88%를 달성했다. 이를 두고 베네딕트 에반스가 쓴 칼럼에서 인상적인 말. People are cheaper.

    하지만 ‘더 많은 컴퓨터’는 훨씬 더 많은 컴퓨팅을 필요로 하며, 88%를 달성하기 위한 테스트에는 문제당 수만 달러의 비용이 든다는 점이 걸림돌입니다. 사람이 더 저렴합니다.