고급 머신 인텔리전스(AMI) 비전을 위한 V-JEPA 아키텍처

V-JEPA: The next step toward Yann LeCun’s vision of advanced machine intelligence (AMI)
Meta

LLM이 ‘인간 수준의’ 지능까지 갈 것인지, 아니면 다른 돌파구가 필요한지 여부에 관한 논쟁이 있다. Meta의 얀 르쿤은 새로운 아키텍처(‘V-JEPA’)를 제안하는데, 유아 포유류가 하는 행동을 보고 원인과 결과 및 물리학을 추론하는 것처럼, AI 모델이 방대한 양의 비디오를 보고 어떤 일이 일어나는지 학습하도록 하는 것이다.

인간으로서 우리가 주변 세계에 대해 배우는 것의 대부분은, 특히 인생의 초기 단계에서는 관찰을 통해 얻게 됩니다. 뉴턴의 제3운동 법칙을 예로 들어보겠습니다: 유아(또는 고양이)도 테이블에서 여러 가지 물건을 떨어뜨리고 그 결과를 관찰하면 올라간 것은 반드시 내려온다는 것을 직감할 수 있습니다. 이러한 결과에 도달하기 위해 몇 시간 동안 교육을 받거나 수천 권의 책을 읽지 않아도 됩니다. 세상에 대한 정신적 모델에 기반한 맥락적 이해인 내적 세계 모델은 이러한 결과를 예측하며, 이는 매우 효율적입니다.

“V-JEPA는 기계가 보다 일반화된 추론과 계획을 세울 수 있도록 세상을 보다 근거 있게 이해하기 위한 단계입니다.”라고 2022년 최초의 JEPA(Joint Embedding Predictive Architectures)를 제안한 Meta의 부사장 겸 수석 AI 과학자 얀 르쿤(Yann LeCun)이 말합니다. “우리의 목표는 인간처럼 더 많이 학습할 수 있는 고급 기계 지능을 구축하여 주변 세계에 대한 내부 모델을 형성하여 복잡한 작업을 효율적으로 학습하고 적응하며 계획을 수립하는 것입니다.”