Apollo: An Exploration of Video Understanding in Large Multimodal Models
대규모 멀티모달 모델(LMM)에서 비디오 이해에 초점을 맞춘 모델 아폴로. 1시간 분량의 동영상을 효율적으로 인식할 수 있다고 말한다. 아래는 초록.
대규모 멀티모달 모델(LMM)에 비디오 인식 기능을 빠르게 통합했음에도 불구하고, 비디오 이해를 주도하는 기본 메커니즘은 여전히 잘 이해되지 않았습니다. 결과적으로 이 도메인의 많은 설계 결정은 적절한 정당화나 분석 없이 내려집니다. 이러한 모델을 훈련하고 평가하는 데 드는 높은 연산 비용과 제한된 공개 연구가 결합되어 비디오 LMM의 개발을 방해합니다. 이를 해결하기 위해 LMM에서 비디오 이해를 효과적으로 주도하는 요소를 파악하는 데 도움이 되는 포괄적인 연구를 제시합니다. 비디오 LMM 연구와 관련된 높은 연산 요구 사항에 대한 주요 기여 요인을 비판적으로 검토하고, 더 작은 모델과 데이터 세트(최대 임계 크기)에서 내린 설계 및 훈련 결정이 더 큰 모델로 효과적으로 전환되는 스케일링 일관성을 발견합니다. 이러한 통찰력을 활용하여 비디오 샘플링, 아키텍처, 데이터 구성, 훈련 일정 등을 포함한 비디오 LMM의 많은 비디오 관련 측면을 탐구했습니다. 예를 들어, 훈련 중 fps 샘플링이 균일한 프레임 샘플링보다 훨씬 바람직하고 어떤 비전 인코더가 비디오 표현에 가장 적합한지 보여주었습니다. 이러한 결과를 바탕으로 다양한 모델 크기에서 우수한 성능을 달성하는 최첨단 LMM 제품군인 Apollo를 소개합니다. 당사 모델은 1시간 분량의 비디오를 효율적으로 인식할 수 있으며, Apollo-3B는 LongVideoBench에서 인상적인 55.1을 기록하여 대부분의 기존 7B 모델을 앞지릅니다. Apollo-7B는 MLVU에서 70.9, Video-MME에서 63.3을 기록한 7B LMM과 비교했을 때 최첨단입니다.
답글 남기기