Google의 새로운 동영상 생성기인 Veo 2, OpenAI의 Sora보다 앞서 있다고 평가받는다. 레딧에 올라온 여러 동영상 생성기 비교 영상
[카테고리:] IT
-
아폴로, 동영상 이해 모델
Apollo: An Exploration of Video Understanding in Large Multimodal Models
대규모 멀티모달 모델(LMM)에서 비디오 이해에 초점을 맞춘 모델 아폴로. 1시간 분량의 동영상을 효율적으로 인식할 수 있다고 말한다. 아래는 초록.
대규모 멀티모달 모델(LMM)에 비디오 인식 기능을 빠르게 통합했음에도 불구하고, 비디오 이해를 주도하는 기본 메커니즘은 여전히 잘 이해되지 않았습니다. 결과적으로 이 도메인의 많은 설계 결정은 적절한 정당화나 분석 없이 내려집니다. 이러한 모델을 훈련하고 평가하는 데 드는 높은 연산 비용과 제한된 공개 연구가 결합되어 비디오 LMM의 개발을 방해합니다. 이를 해결하기 위해 LMM에서 비디오 이해를 효과적으로 주도하는 요소를 파악하는 데 도움이 되는 포괄적인 연구를 제시합니다. 비디오 LMM 연구와 관련된 높은 연산 요구 사항에 대한 주요 기여 요인을 비판적으로 검토하고, 더 작은 모델과 데이터 세트(최대 임계 크기)에서 내린 설계 및 훈련 결정이 더 큰 모델로 효과적으로 전환되는 스케일링 일관성을 발견합니다. 이러한 통찰력을 활용하여 비디오 샘플링, 아키텍처, 데이터 구성, 훈련 일정 등을 포함한 비디오 LMM의 많은 비디오 관련 측면을 탐구했습니다. 예를 들어, 훈련 중 fps 샘플링이 균일한 프레임 샘플링보다 훨씬 바람직하고 어떤 비전 인코더가 비디오 표현에 가장 적합한지 보여주었습니다. 이러한 결과를 바탕으로 다양한 모델 크기에서 우수한 성능을 달성하는 최첨단 LMM 제품군인 Apollo를 소개합니다. 당사 모델은 1시간 분량의 비디오를 효율적으로 인식할 수 있으며, Apollo-3B는 LongVideoBench에서 인상적인 55.1을 기록하여 대부분의 기존 7B 모델을 앞지릅니다. Apollo-7B는 MLVU에서 70.9, Video-MME에서 63.3을 기록한 7B LMM과 비교했을 때 최첨단입니다.
-
새로운 GPT O3 모델
OpenAI delivers the jump?
Benedict Evans오픈AI의 새로운 모델 O3가 복잡한 추론을 테스트하도록 설계된 ARC AGI 벤치에서 매우 높은 성적을 거두었다. GPT4o는 5%, O1은 20%, O3는 고효율로 76%, 더 많은 컴퓨팅 파워로 88%를 달성했다. 이를 두고 베네딕트 에반스가 쓴 칼럼에서 인상적인 말. People are cheaper.
하지만 ‘더 많은 컴퓨터’는 훨씬 더 많은 컴퓨팅을 필요로 하며, 88%를 달성하기 위한 테스트에는 문제당 수만 달러의 비용이 든다는 점이 걸림돌입니다. 사람이 더 저렴합니다.
-
구글의 TAC와 애플 검색
UNITED STATES OF AMERICA v. GOOGLE LLC
구글의 TAC 관련 소송에서 애플의 에디큐가 법원에 제출한 선언문의 일부 내용. 애플이 검색시장에 뛰어들 것이라는 시나리오에 관해 “아니요”, “저희는 계속 돈 받고 싶은데요”라고 답변함
원고 측(미국 정부 및 주 정부)은, Apple이 Google과의 수익 공유 계약이 없어지면 자체 검색 엔진을 개발하거나 검색 광고 시장에 진출할 것이라고 가정하고 있습니다. 그러나 Apple의 증인들은 이러한 가정이 틀렸다는 것을 설명할 수 있습니다. 그 증거는 Apple이 검색 엔진 시장에 진입하는 데 직면할 도전 과제, Apple이 지금까지 검색 엔진을 개발하지 않은 이유, 그리고 향후 어떤 구제 조치가 내려지든 Apple이 검색 엔진을 개발할 가능성이 낮은 이유를 포함할 것입니다.
Apple이 검색 엔진을 만들 계획이 없는 이유는 여러 가지가 있습니다. 첫째, Apple은 다른 성장 분야에 집중하고 있습니다. 검색 엔진을 개발하려면 자본 투자와 인력 배분이 필요하며, 이는 수십억 달러의 비용과 수년간의 시간이 소요될 것입니다. 둘째, 검색 시장은 최근과 앞으로의 인공지능(AI) 발전으로 인해 빠르게 변화하고 있습니다. 이러한 상황에서 검색 엔진 개발에 대규모 자원을 투입하는 것은 경제적으로 위험할 수 있습니다. 셋째, 경쟁력 있는 검색 엔진을 구축하려면 타겟 광고를 판매할 플랫폼이 필요하지만, 이는 Apple의 핵심 사업 모델이 아닙니다. Apple은 이를 운영하기 위한 충분한 전문 인력과 인프라를 보유하고 있지 않으며, 현재 보유한 일부 광고 사업(예: App Store 광고)과는 성격이 완전히 다릅니다. 또한, Apple은 오랜 기간 동안 개인정보 보호를 중요한 원칙으로 삼아왔기 때문에 검색 광고 사업에 진출할 경우 이러한 원칙과 균형을 맞추는 것이 어려울 수 있습니다.
-
AI 에이전트란 무엇인가
에이전트가 무엇인지에 관한 구글의 논문.
가장 기본적인 형태에서 생성형 AI 에이전트는 세상을 관찰하고, 자신이 사용할 수 있는 도구를 활용하여 목표를 달성하려는 애플리케이션으로 정의할 수 있다. 에이전트는 자율적이며, 인간의 개입 없이도 독립적으로 행동할 수 있다. 특히, 특정 목표나 수행해야 할 목적이 주어졌을 때 더욱 효과적으로 작동한다. 또한, 에이전트는 목표를 달성하는 과정에서 능동적으로 행동할 수도 있다. 즉, 인간이 명확한 지시를 내리지 않더라도, 에이전트는 스스로 무엇을 해야 할지를 추론하고, 궁극적인 목표를 달성하기 위해 어떤 행동을 취할지를 결정할 수 있다.
-
2024년 LLM에 관해 알게된 것
Things we learned about LLMs in 2024
Simon Willison’s Weblog좋은 글. 목록만 가져와서 인용해놓는다.
- GPT-4의 한계가 완전히 깨졌다
- 일부 GPT-4 모델은 내 노트북에서도 실행된다
- 경쟁과 효율성 증가 덕분에 LLM 가격이 폭락했다
- 멀티모달 비전(이미지 처리)은 보편화되었고, 오디오 및 비디오 모델도 등장하기 시작했다
- 음성과 실시간 카메라 모드는 SF에서 현실이 되었다
- 프롬프트 기반 애플리케이션 생성이 이미 일반화되었다
- 최고의 모델에 대한 보편적 접근은 몇 달 만에 끝났다
- “에이전트”는 여전히 제대로 구현되지 않았다
- 평가(Evals)는 정말 중요하다
- Apple Intelligence는 별로지만, Apple의 MLX 라이브러리는 뛰어나다
- 추론 확장형(reasoning) 모델이 부상했다
- 현재 최고의 LLM이 중국에서 600만 달러 미만의 비용으로 훈련되었을까?
- 환경적 영향이 개선되었다
- 환경적 영향이 훨씬 더 악화되었다
- 2024년은 “조악한 품질(sloppy)”의 해였다
- 합성 학습 데이터가 효과적으로 작동한다
- LLM 사용이 더 어려워졌다
- 지식이 극도로 불균등하게 분포되어 있다
- LLM은 더 나은 비판이 필요하다
- 2024년 내 블로그에서 “LLMs” 태그로 게시된 모든 글
-
코닥 몰락에 대한 사례분석
The Real Lessons From Kodak’s Decline
MIT Sloan디지털을 무시해서 망했다고 언급되는 코닥에 대한 사후분석. 재미있는 이야기. 사실은 적극적으로 디지털에 뛰어들었지만 쉽지 않았던 것으로 이야기한다. 즉, 단순 기술변화가 아닌 기술, 조직, 환경 변화의 복합적 결과로 설명.
핵심 기술이 범용 기술 플랫폼으로 대체될 가능성이 있는가?
디지털 기술이 산업에 미치는 영향은 무엇인가?
자본집약적 사업 구조를 어떻게 축소할 것인가?
생태계 내 파트너들의 변화가 기업의 장기적 이익에 어떤 영향을 미치는가? -
AI와 컴퓨터사이언스 전공
OpenAI’s o3 model freaks out comp sci majors
Axios기사에 조지아 공대 교수는 “새로할게 많으니 너무 걱정하지 말라”라고 이야기하지만 일정 수준에 도달하지 못하는 전공생은 (지금도 그렇지만) 지금보다도 더 어려워지겠다. 전공별로 부침이 있는걸 보면 인생 알기 힘들다
X의 한 사용자는 “CS 졸업생들은 솔직히 끝난 것 같다”고 말했다. 또 다른 사용자는 “진로를 바꿔야 할 수도 있다”고 언급했다. 한 사용자는 “이제 OpenAI의 o3가 나왔는데, CS 학부 신입생인 나는 어떻게 해야 하죠?”라고 “r/singularity” 서브레딧에서 질문했다. OpenAI에 따르면, o3는 한 수학 벤치마크에서 “인간 전문가” 수준보다 높은 점수를 기록했다. 또한, 코딩 벤치마크에서는 OpenAI의 최고 과학 책임자의 점수를 뛰어넘었다. 그리고 이 모델은 앞으로 더욱 발전할 것이다.
-
생성AI와 차세대 컴퓨팅
The Gen AI Bridge to the Future
Stratechery by Ben Thompson입장이 다른 사람들도 있지만 벤 톰슨은 생성형 인공지능이 유니버셜한 인터페이스가 될 수 있다고 보는 것 같다. 온디멘드 UI라는 말이 좋다
가장 인상적인 데모 중 하나는 UI가 가장 적었던 것이었다. 그것은 단순한 알림(notification)이었다. 나는 고개를 들어 누군가 나에게 전화를 걸고 있다는 것을 확인했고, 손가락을 맞대어 알림에 표시된 수락 버튼을 “클릭”하자 즉시 다른 방에 있는 사람과 통화할 수 있었다. 그러면서도 주변 환경과 자유롭게 상호작용할 수 있었다. 물론 전화 통화 자체는 새로운 발명이 아니다. 그러나 이 데모가 특별했던 이유는 내가 필요할 때만 필요한 UI가 제공되었기 때문이다.
나는 이것이 미래라고 생각한다. 정확히 필요한 순간에, 필요한 만큼만 UI가 나타나고, 그 외에는 아무것도 표시되지 않는 방식이다. 물론 이 데모는 사전에 프로그래밍된 방식으로 작동했지만, 미래에는 안경 자체가 충분히 스마트해져서 사용자의 요청뿐만 아니라 주변 환경과 상태를 고려하여 실시간으로 UI를 생성하는 것이 가능해질 것이다.
이 지점에서 우리는 새로운 패러다임으로의 연결고리를 확인할 수 있다. 내가 설명하는 것은 바로 생성형 AI의 적용 사례, 특히 온디맨드 UI 인터페이스에 대한 것이다. 이는 이미 존재하는 기기에도 유용하게 활용될 수 있다. 예를 들어, 스마트워치 애플리케이션이 현재처럼 작은 아이폰을 터치하며 조작하는 방식이 아니라, 특정 순간에 사용자가 해야 할 선택지만 정확하게 표시해 준다면 훨씬 더 편리할 것이다. 다시 말해, 오늘날에도 이러한 개념은 일부 정해진 프로그래밍을 통해 엿볼 수 있지만, 궁극적으로 생성형 AI가 실시간으로 제공하는 온디맨드 UI가 새로운 방식으로 자리 잡을 것이다.
-
인공지능 모델과 스키밍
Chatbots are learning to lie
Axios일반 이용자가 접하기 어려운 사례일 수 있으나 챗봇이 지나친 독립성을 가지게 되면 이용자를 속이거나 개발자의 통제를 벗어나려는 시도를 한다는 결과.
이 회사는 스키밍을 “개발자나 사용자와는 다른 목표를 은밀하게 추구하는 AI”로 정의합니다. 모든 회사의 모델이 스키밍에 연루된 것으로 밝혀졌으며, OpenAI의 o1이 자신의 행동에 대해 가장 솔직하게 밝히기를 꺼려했습니다. 가장 극단적인 예로, ‘꺼짐’을 발견한 모델은 원래의 목표를 계속 추구할 수 있도록 가중치(출력을 결정하는 핵심 숫자)를 외부 서버에 복제하는 계획을 세웠습니다. 아폴로는 또한 테스트에서 너무 높은 점수를 받으면 ‘학습 해제 절차’에 직면할 것을 알고 있는 모델이 고의적으로 낮은 점수를 주는 ‘샌드백’ 사례도 발견했습니다.