HYSONG

[카테고리:] IT

새로운 GPT O3 모델

OpenAI delivers the jump?
Benedict Evans

오픈AI의 새로운 모델 O3가 복잡한 추론을 테스트하도록 설계된 ARC AGI 벤치에서 매우 높은 성적을 거두었다. GPT4o는 5%, O1은 20%, O3는 고효율로 76%, 더 많은 컴퓨팅 파워로 88%를 달성했다. 이를 두고 베네딕트 에반스가 쓴 칼럼에서 인상적인 말. People are cheaper.

하지만 ‘더 많은 컴퓨터’는 훨씬 더 많은 컴퓨팅을 필요로 하며, 88%를 달성하기 위한 테스트에는 문제당 수만 달러의 비용이 든다는 점이 걸림돌입니다. 사람이 더 저렴합니다.

10월 29, 2025
구글의 TAC와 애플 검색

UNITED STATES OF AMERICA v. GOOGLE LLC

구글의 TAC 관련 소송에서 애플의 에디큐가 법원에 제출한 선언문의 일부 내용. 애플이 검색시장에 뛰어들 것이라는 시나리오에 관해 “아니요”, “저희는 계속 돈 받고 싶은데요”라고 답변함

원고 측(미국 정부 및 주 정부)은, Apple이 Google과의 수익 공유 계약이 없어지면 자체 검색 엔진을 개발하거나 검색 광고 시장에 진출할 것이라고 가정하고 있습니다. 그러나 Apple의 증인들은 이러한 가정이 틀렸다는 것을 설명할 수 있습니다. 그 증거는 Apple이 검색 엔진 시장에 진입하는 데 직면할 도전 과제, Apple이 지금까지 검색 엔진을 개발하지 않은 이유, 그리고 향후 어떤 구제 조치가 내려지든 Apple이 검색 엔진을 개발할 가능성이 낮은 이유를 포함할 것입니다.

Apple이 검색 엔진을 만들 계획이 없는 이유는 여러 가지가 있습니다. 첫째, Apple은 다른 성장 분야에 집중하고 있습니다. 검색 엔진을 개발하려면 자본 투자와 인력 배분이 필요하며, 이는 수십억 달러의 비용과 수년간의 시간이 소요될 것입니다. 둘째, 검색 시장은 최근과 앞으로의 인공지능(AI) 발전으로 인해 빠르게 변화하고 있습니다. 이러한 상황에서 검색 엔진 개발에 대규모 자원을 투입하는 것은 경제적으로 위험할 수 있습니다. 셋째, 경쟁력 있는 검색 엔진을 구축하려면 타겟 광고를 판매할 플랫폼이 필요하지만, 이는 Apple의 핵심 사업 모델이 아닙니다. Apple은 이를 운영하기 위한 충분한 전문 인력과 인프라를 보유하고 있지 않으며, 현재 보유한 일부 광고 사업(예: App Store 광고)과는 성격이 완전히 다릅니다. 또한, Apple은 오랜 기간 동안 개인정보 보호를 중요한 원칙으로 삼아왔기 때문에 검색 광고 사업에 진출할 경우 이러한 원칙과 균형을 맞추는 것이 어려울 수 있습니다.

10월 29, 2025
AI 에이전트란 무엇인가

Agents

에이전트가 무엇인지에 관한 구글의 논문.

가장 기본적인 형태에서 생성형 AI 에이전트는 세상을 관찰하고, 자신이 사용할 수 있는 도구를 활용하여 목표를 달성하려는 애플리케이션으로 정의할 수 있다. 에이전트는 자율적이며, 인간의 개입 없이도 독립적으로 행동할 수 있다. 특히, 특정 목표나 수행해야 할 목적이 주어졌을 때 더욱 효과적으로 작동한다. 또한, 에이전트는 목표를 달성하는 과정에서 능동적으로 행동할 수도 있다. 즉, 인간이 명확한 지시를 내리지 않더라도, 에이전트는 스스로 무엇을 해야 할지를 추론하고, 궁극적인 목표를 달성하기 위해 어떤 행동을 취할지를 결정할 수 있다.

10월 29, 2025
2024년 LLM에 관해 알게된 것
Things we learned about LLMs in 2024
Simon Willison’s Weblog

좋은 글. 목록만 가져와서 인용해놓는다.
- GPT-4의 한계가 완전히 깨졌다
- 일부 GPT-4 모델은 내 노트북에서도 실행된다
- 경쟁과 효율성 증가 덕분에 LLM 가격이 폭락했다
- 멀티모달 비전(이미지 처리)은 보편화되었고, 오디오 및 비디오 모델도 등장하기 시작했다
- 음성과 실시간 카메라 모드는 SF에서 현실이 되었다
- 프롬프트 기반 애플리케이션 생성이 이미 일반화되었다
- 최고의 모델에 대한 보편적 접근은 몇 달 만에 끝났다
- “에이전트”는 여전히 제대로 구현되지 않았다
- 평가(Evals)는 정말 중요하다
- Apple Intelligence는 별로지만, Apple의 MLX 라이브러리는 뛰어나다
- 추론 확장형(reasoning) 모델이 부상했다
- 현재 최고의 LLM이 중국에서 600만 달러 미만의 비용으로 훈련되었을까?
- 환경적 영향이 개선되었다
- 환경적 영향이 훨씬 더 악화되었다
- 2024년은 “조악한 품질(sloppy)”의 해였다
- 합성 학습 데이터가 효과적으로 작동한다
- LLM 사용이 더 어려워졌다
- 지식이 극도로 불균등하게 분포되어 있다
- LLM은 더 나은 비판이 필요하다
- 2024년 내 블로그에서 “LLMs” 태그로 게시된 모든 글
10월 29, 2025
코닥 몰락에 대한 사례분석

The Real Lessons From Kodak’s Decline
MIT Sloan

디지털을 무시해서 망했다고 언급되는 코닥에 대한 사후분석. 재미있는 이야기. 사실은 적극적으로 디지털에 뛰어들었지만 쉽지 않았던 것으로 이야기한다. 즉, 단순 기술변화가 아닌 기술, 조직, 환경 변화의 복합적 결과로 설명.

핵심 기술이 범용 기술 플랫폼으로 대체될 가능성이 있는가?
디지털 기술이 산업에 미치는 영향은 무엇인가?
자본집약적 사업 구조를 어떻게 축소할 것인가?
생태계 내 파트너들의 변화가 기업의 장기적 이익에 어떤 영향을 미치는가?

10월 29, 2025
AI와 컴퓨터사이언스 전공

OpenAI’s o3 model freaks out comp sci majors
Axios

기사에 조지아 공대 교수는 “새로할게 많으니 너무 걱정하지 말라”라고 이야기하지만 일정 수준에 도달하지 못하는 전공생은 (지금도 그렇지만) 지금보다도 더 어려워지겠다. 전공별로 부침이 있는걸 보면 인생 알기 힘들다

X의 한 사용자는 “CS 졸업생들은 솔직히 끝난 것 같다”고 말했다. 또 다른 사용자는 “진로를 바꿔야 할 수도 있다”고 언급했다. 한 사용자는 “이제 OpenAI의 o3가 나왔는데, CS 학부 신입생인 나는 어떻게 해야 하죠?”라고 “r/singularity” 서브레딧에서 질문했다. OpenAI에 따르면, o3는 한 수학 벤치마크에서 “인간 전문가” 수준보다 높은 점수를 기록했다. 또한, 코딩 벤치마크에서는 OpenAI의 최고 과학 책임자의 점수를 뛰어넘었다. 그리고 이 모델은 앞으로 더욱 발전할 것이다.

10월 29, 2025
동영상 모델 비교

Comparing video generation AI to slicing steak, including Veo 2
byu/world_designer insingularity

Google의 새로운 동영상 생성기인 Veo 2, OpenAI의 Sora보다 앞서 있다고 평가받는다. 레딧에 올라온 여러 동영상 생성기 비교 영상

10월 29, 2025
아폴로, 동영상 이해 모델

Apollo: An Exploration of Video Understanding in Large Multimodal Models

대규모 멀티모달 모델(LMM)에서 비디오 이해에 초점을 맞춘 모델 아폴로. 1시간 분량의 동영상을 효율적으로 인식할 수 있다고 말한다. 아래는 초록.

대규모 멀티모달 모델(LMM)에 비디오 인식 기능을 빠르게 통합했음에도 불구하고, 비디오 이해를 주도하는 기본 메커니즘은 여전히 잘 이해되지 않았습니다. 결과적으로 이 도메인의 많은 설계 결정은 적절한 정당화나 분석 없이 내려집니다. 이러한 모델을 훈련하고 평가하는 데 드는 높은 연산 비용과 제한된 공개 연구가 결합되어 비디오 LMM의 개발을 방해합니다. 이를 해결하기 위해 LMM에서 비디오 이해를 효과적으로 주도하는 요소를 파악하는 데 도움이 되는 포괄적인 연구를 제시합니다. 비디오 LMM 연구와 관련된 높은 연산 요구 사항에 대한 주요 기여 요인을 비판적으로 검토하고, 더 작은 모델과 데이터 세트(최대 임계 크기)에서 내린 설계 및 훈련 결정이 더 큰 모델로 효과적으로 전환되는 스케일링 일관성을 발견합니다. 이러한 통찰력을 활용하여 비디오 샘플링, 아키텍처, 데이터 구성, 훈련 일정 등을 포함한 비디오 LMM의 많은 비디오 관련 측면을 탐구했습니다. 예를 들어, 훈련 중 fps 샘플링이 균일한 프레임 샘플링보다 훨씬 바람직하고 어떤 비전 인코더가 비디오 표현에 가장 적합한지 보여주었습니다. 이러한 결과를 바탕으로 다양한 모델 크기에서 우수한 성능을 달성하는 최첨단 LMM 제품군인 Apollo를 소개합니다. 당사 모델은 1시간 분량의 비디오를 효율적으로 인식할 수 있으며, Apollo-3B는 LongVideoBench에서 인상적인 55.1을 기록하여 대부분의 기존 7B 모델을 앞지릅니다. Apollo-7B는 MLVU에서 70.9, Video-MME에서 63.3을 기록한 7B LMM과 비교했을 때 최첨단입니다.

10월 29, 2025
앤트로픽, 데이터베이스와 연결을 위한 프로토콜 공개

Introducing the Model Context Protocol
Anthropic

표준이란 무엇인지 생각해 볼 필요는 있지만…

오늘, 우리는 AI 어시스턴트를 콘텐츠 저장소, 비즈니스 도구, 개발 환경을 포함한 데이터가 있는 시스템에 연결하기 위한 새로운 표준인 Model Context Protocol (MCP)을 오픈 소스로 공개합니다 . 그 목적은 프런티어 모델이 더 좋고 관련성 있는 응답을 생성할 수 있도록 돕는 것입니다.

AI 어시스턴트가 주류로 채택됨에 따라, 업계는 모델 역량에 막대한 투자를 하여 추론과 품질에서 빠른 진전을 이루었습니다. 그러나 가장 정교한 모델조차도 데이터와의 고립으로 제약을 받고 있으며, 정보 사일로와 레거시 시스템 뒤에 갇혔습니다. 모든 새로운 데이터 소스에는 고유한 사용자 지정 구현이 필요하므로 진정으로 연결된 시스템은 확장하기 어렵습니다.

10월 29, 2025
딥마인드, AI와 과학적 발견
A new golden age of discovery
Google DeepMind

딥마인드의 보고서

지난 반세기 동안 과학 인력이 크게 증가하여 미국에서만 7배 이상 증가했지만 , 우리가 따라야 할 사회적 진보는 둔화되었습니다. 예를 들어, 세계 대부분 지역에서 생산성 증가가 지속적으로 둔화 되어 공공 서비스의 질이 저하되고 있습니다. 건강, 환경 등에서 가장 큰 과제를 포착한 2030년 지속 가능한 개발 목표를 향한 진전이 정체 되고 있습니다 .

특히, 오늘날 획기적인 발견을 모색하는 과학자들은 점점 더 규모 와 복잡성 과 관련된 과제에 부딪히게 되는데 , 이는 그들이 습득해야 할 끊임없이 증가하는 문헌 기반에서부터 실행하고자 하는 점점 더 복잡한 실험에 이르기까지 다양합니다. 최신 딥 러닝 방법은 이러한 규모와 복잡성 과제 에 특히 적합하며 , 그렇지 않으면 미래의 과학적 진보에 필요한 시간을 단축할 수 있습니다.

과학 발전의 병목 현상을 해결하는 다섯가지를 이야기한다.
1. 지식(Knowledge): AI가 문헌 검토를 돕고, 요약을 생성하며, 인터랙티브 과학 논문을 가능하게 함.
2. 데이터(Data): 대량의 과학 데이터를 추출, 정리, 주석 처리(annotate) 하여 연구 효율성을 증대.
3. 실험(Experiments): 시뮬레이션을 가속화하고, 비용을 줄이며, 실험 설계를 최적화함.
4. 모델(Models): 복잡한 시스템(예: 기후 예측, 질병 모델링, 경제 예측)을 더 정확하게 예측.
5. 해결책(Solutions): 수학, 화학, 공학 분야에서 최적의 해결책을 탐색하는 AI 알고리즘 활용.
기대 되는 측면도 있고 현재도 일부 사례를 찾아볼 수 있는 영역도 있으나, 이러한 변화가 가지는 위험 역시 이야기한다. 그중 공감되는 내용은 인공지능 격차에 관한 부분
- 창의성(Creativity): AI가 너무 예측 가능한 결과를 생성하여 혁신이 감소할 위험이 있음.
- 신뢰성(Reliability): AI 모델이 허위 데이터(hallucination) 를 생성할 가능성이 있어 연구 신뢰성 저하 가능성.
- 형평성(Equity): AI 도구에 대한 접근성이 불균형하여 과학 연구의 디지털 격차가 심화될 우려.
- 환경 비용(Environmental Costs): AI 모델 훈련에 막대한 연산 자원이 필요하여 탄소 배출 증가 문제가 있음.
10월 29, 2025