[카테고리:] IT

  • 고급 머신 인텔리전스(AMI) 비전을 위한 V-JEPA 아키텍처

    V-JEPA: The next step toward Yann LeCun’s vision of advanced machine intelligence (AMI)
    Meta

    LLM이 ‘인간 수준의’ 지능까지 갈 것인지, 아니면 다른 돌파구가 필요한지 여부에 관한 논쟁이 있다. Meta의 얀 르쿤은 새로운 아키텍처(‘V-JEPA’)를 제안하는데, 유아 포유류가 하는 행동을 보고 원인과 결과 및 물리학을 추론하는 것처럼, AI 모델이 방대한 양의 비디오를 보고 어떤 일이 일어나는지 학습하도록 하는 것이다.

    인간으로서 우리가 주변 세계에 대해 배우는 것의 대부분은, 특히 인생의 초기 단계에서는 관찰을 통해 얻게 됩니다. 뉴턴의 제3운동 법칙을 예로 들어보겠습니다: 유아(또는 고양이)도 테이블에서 여러 가지 물건을 떨어뜨리고 그 결과를 관찰하면 올라간 것은 반드시 내려온다는 것을 직감할 수 있습니다. 이러한 결과에 도달하기 위해 몇 시간 동안 교육을 받거나 수천 권의 책을 읽지 않아도 됩니다. 세상에 대한 정신적 모델에 기반한 맥락적 이해인 내적 세계 모델은 이러한 결과를 예측하며, 이는 매우 효율적입니다.

    “V-JEPA는 기계가 보다 일반화된 추론과 계획을 세울 수 있도록 세상을 보다 근거 있게 이해하기 위한 단계입니다.”라고 2022년 최초의 JEPA(Joint Embedding Predictive Architectures)를 제안한 Meta의 부사장 겸 수석 AI 과학자 얀 르쿤(Yann LeCun)이 말합니다. “우리의 목표는 인간처럼 더 많이 학습할 수 있는 고급 기계 지능을 구축하여 주변 세계에 대한 내부 모델을 형성하여 복잡한 작업을 효율적으로 학습하고 적응하며 계획을 수립하는 것입니다.”

  • 인공지능의 현실적 활용법

    The AI Industry Is Stuck on One Very Specific Way to Use a Chatbot

    인공지능을 어떻게 활용해야 하는지 여전히 많은 사람들이 혼란스러워하는 것 같다. “나 대신 휴가 예약해줘”와 같은 방식은 현실적 활용 사례라 보기 어렵다.

    상하이 푸단대학교, 오하이오주립대학교, 펜실베이니아주립대학교, 메타의 연구팀도 비슷한 결론에 도달했습니다. 이들은 “2022년 3월 25일부터 3월 27일까지 3일간 잭슨빌에서 출발하여 로스앤젤레스로 향하는 혼자 여행하는 여행자의 여행 일정을 만들어 주세요”와 같은 1,000개의 샘플 쿼리에 대해 챗봇을 테스트했습니다. 이 여행의 예산은 현재 2,400달러로 설정되어 있습니다.” 그런 다음 챗봇이 프롬프트의 모든 기준을 충족하는 답변을 제공할 수 있는지 평가했습니다. 챗봇은 전반적으로 거의 실패했습니다. 테스트한 4개 모델 중 OpenAI의 GPT-4 모델이 가장 우수한 성능을 보였지만, 이 모델도 1,000개 중 0.6%인 6개 쿼리에만 성공적으로 답변했습니다. (이 연구는 아직 동료 검토를 거치지 않았습니다.)

    챗봇은 다양한 요인으로 인해 실패했습니다: 챗봇은 추론 오류를 범하기도 하고, 때로는 엉뚱한 말을 지어내기도 했습니다. “이 점은 아무리 강조해도 지나치지 않습니다: 이런 종류의 도구는 의사 결정 과정을 대체하는 것이 아니라 보완하는 것입니다.”라고 AI 회사인 Hugging Face의 커뮤니케이션 책임자인 브리짓 투시그넌트는 말합니다.

  • 구글 독점과 선택화면

    ‘Choice Screen’ Fever Dream: Enforcers’ New Favorite Remedy Won’t Blunt Google’s Search Monopoly
    techpolicy.press

    규제 기관은 선택화면을 선호하지만 현실적으로 작동하는 방식이라고 보기 어렵다. 인간이 그런 방식으로 행동하지 않기 때문이다.

    Google은 3월에 디지털 시장법 준수를 위해 EU에서 검색 엔진 선택 화면을 출시할 예정입니다. 구글은 선택 화면을 아예 표시하지 않기를 원하지만, 선택 화면이 많으면 그 영향력이 무력화될 수 있다는 사실을 현명하게 깨달았습니다. …… 시행자들은 오늘날에도 다른 상황에서 볼 수 있는 소비자 보호 원칙에 따라 선택 화면을 채택했을 것입니다. 그러나 이러한 원칙은 이제 실패한 모델로 널리 알려져 있습니다. 예를 들어, 유럽의 쿠키 팝업 상자는 이론적인 선택 화면(쿠키를 원하십니까, 원하지 않으십니까?)라는 이론적인 선택 화면으로, 소비자는 원하는 결과를 얻지 못한 채 금방 사라집니다. 마찬가지로 미국의 수많은 법적 고지 사항과 게시된 개인정보 보호정책은 ‘고지 및 동의’ 프레임워크로서 소비자에게 권한을 부여하기보다는 좌절감을 안겨줍니다.

    선택 화면이 실질적인 경쟁 증진 수단이 아니라, 단순히 소비자의 선택을 억제하는 기본 설정과 현 상황을 바탕으로 한 착각에 불과할 수 있다.

  • 스레드 출시에 관한 엔지니어링 블로그

    Threads: The inside story of Meta’s newest social app

    최근 소셜 미디어에 관해 생각해보며 둘러보다보니 페이스북은 촌스러운 느낌이 나는 반면에 스레드는 그래도 좀 깔끔하다는 느낌이 들었다. 찾다가 읽게 된 스레드 출시 관련 내부 이야기.

    페디버스(연합된 우주)라는 개념에 익숙하지 않은 분들도 계시겠지만, 저에게 가장 쉬운 비유는 이메일에 비유하는 것입니다. 누군가는 Gmail을 사용하고 다른 누군가는 야후 메일을 사용한다고 가정해 봅시다. 한 사람은 Google 플랫폼을 사용하고 다른 한 사람은 Yahoo를 사용하더라도 서로 이메일을 주고받을 수 있다는 것은 두 번 생각하지 않습니다. 이메일은 상호 운용이 가능하고 두 회사 모두 이메일 전송을 위한 SMTP 프로토콜을 준수하기 때문입니다. 하지만 오늘날 소셜 미디어에서는 그렇게 할 수 없습니다. 예를 들어 Instagram 사용자는 Tumblr의 다른 크리에이터를 팔로우할 수 없습니다. …(중략)… 스레드에 대한 저의 궁극적인 바람은 스레드가 인터넷의 시대정신이 되는 것입니다. 최신 문화 이벤트에 대해 긍정적인 대화를 나누고 싶을 때 가장 먼저 찾는 곳이 될 것입니다. 크리에이터들 간의 최신 대화나 관심 있는 다른 사람들 간의 대화를 보고 싶을 때 가고 싶은 곳이 될 것입니다. 앞으로 몇 달 동안 여러분 모두를 위해 지속적으로 제품을 개선해 나가면서 이러한 모습을 볼 수 있기를 바랍니다.

    요즘 메타는 언어 모델 개발까지 개방형을 강조하는 방향으로 전환한 느낌이다. 트위터는 인터넷의 시대정신이었다. 스레드가 시대정신이 되고 싶다는 것은 희망이겠지만 그렇게 쉬운 일은 아닐 것 같다.

  • 메타의 독립연구 지원 도구

    New Tools to Support Independent Research

    Meta는 사람들이 플랫폼을 어떻게 사용하는지에 대한 데이터에 외부 연구자들이 접근할 수 있는 새로운 도구와 플랫폼을 제공한다.

    • 연구자들이 Facebook과 Instagram에서 더 많은 공개 콘텐츠에 액세스할 수 있는 새로운 도구를 출시합니다.
    • 저희는 정치 및 사회 연구를 위한 대학 간 컨소시엄(ICPSR)과 최초의 파트너십을 체결하여 연구자들이 ICPSR의 안전한 가상 데이터 영역에서 데이터를 분석할 수 있도록 했습니다.
    • 전 세계 경제 이동성의 동인을 더 잘 이해하기 위해 사회적 자본 연구를 확대하고 있습니다.

    이와 관련된 MIT Technology Review의 기사

    연구자들은 특히 플랫폼이 공개를 원치 않을 수 있는 데이터에 접근하는 것과 관련하여 과거에 소셜 미디어 회사와 불편한 관계를 맺어 왔습니다. (예를 들어, 2021년에 페이스북은 웹 스크래핑을 통한 플랫폼의 정치 광고 타겟팅을 조사하던 뉴욕대학교의 투명성 프로젝트 연구진에게 사용자 개인정보를 침해한다는 이유로 연구 중단 서한을 보낸 바 있습니다.)

    클레그는 이 제품이 무엇보다도 “의미 있는” 연구를 가능하게 하기를 원한다고 말하며, 현재 소셜 미디어의 정확한 영향에 대한 연구자들 간의 합의가 부족하며, 이는 소셜 미디어 기업의 공개 데이터 부족으로 인해 더욱 어려워졌다고 강조했습니다.

    새로운 라이브러리는 주로 검색 엔진과 유사한 웹 인터페이스 또는 연구자가 직접 쿼리를 코딩하여 대량의 데이터를 반환할 수 있는 API를 통해 액세스할 수 있는 데이터베이스입니다. 예를 들어, 연구자들은 2023년 2월 14일에 생성형 AI에 관한 모든 공개 게시물을 가장 많이 본 순서부터 가장 적게 본 순서로 정렬하여 보여 달라고 요청할 수 있습니다.

  • GAIA, 언어모델 벤치마크

    FACEBOOK RESEARCHERS TEST AI’S INTELLIGENCE AND FIND IT IS UNFORTUNATELY QUITE STUPID
    The Byte

    새로운 대규모 언어 모델 벤치마크에서 기존 모델의 점수가 형편없다는 기사.

    AI 대부’이자 메타의 수석 과학자인 얀 르쿤이 포함된 연구팀은 아직 동료 심사를 거치지 않은 논문에 따르면 “인간에게는 개념적으로 간단하지만 대부분의 고급 AI에게는 어려운” 466개의 문항으로 구성된 GAIA라는 시험을 고안해냈습니다.

    인간 응답자는 92%의 질문에 정답을 맞힌 반면, 수동으로 선택한 일부 플러그인을 장착한 GPT4는 15%에 불과했습니다. 이 팀이 발표한 GAIA 순위표에 따르면 OpenAI가 최근 출시한 GPT4 Turbo의 점수는 10% 미만이었습니다.

    GAIA 목표가 무엇인지 해당 아카이브 논문의 일부 내용.

    인간에게는 어려운 작업 대신, 개념적으로는 간단하지만 조합 공간이 큰 복잡한 작업 시퀀스를 정확하게 실행해야 하는 작업을 AI 시스템에 요청할 수 있습니다. 컴퓨터에게 해결책을 쉽게 검증할 수 있는 복잡한 문제를 풀도록 요청하는 작업 증명 알고리즘(Jakobsson and Juels, 1999; Dwork and Naor, 1993)과 유사하게, 작업을 성공적으로 완료해야만 결과를 얻을 수 있고 검증이 용이해야 합니다. 다양하고 불확실한 세계에 접근해야 하는 인공지능 비서를 위한 작업은 본질적으로 실제 사용 사례에 뿌리를 두면서 이 기준을 충족해야 합니다.

    우리는 이러한 방향으로 나아가기 위해 466개의 세심하게 만들어진 질문과 그에 대한 답변, 그리고 관련 설계 방법론으로 구성된 일반 AI 어시스턴트의 벤치마크인 GAIA를 제안합니다. 우리의 질문은 만들기도 쉽고, AI 시스템(LLM의 경우 대부분 복잡한 생성이 필요함)에 도전적이지만, 독특하고 사실적인 답변을 인정하여 간단하고 강력한 자동 평가가 가능합니다.

    GAIA는 다음과 같은 목표를 통해 현재 LLM 평가의 함정을 피하고자 합니다:

    • 실제적이고 도전적인 질문. 예를 들어, LLM은 일반적으로 개방적이고 변화하는 웹을 탐색하거나, 다중 모달리티를 처리하거나, 질문에 답하기 위해 여러 단계를 거쳐 추론해야 합니다. 반대로, 많은 LLM 벤치마크는 매우 구체적이거나 폐쇄적이고 합성된 환경으로 제한되어 있습니다.
    • 개념적으로 간단한 작업을 통한 쉬운 해석 가능성(비전문가인 주석가도 만점에 가까운 점수를 나타냄), 관련 추론 추적, 몇 개 되지 않지만 고도로 선별된 질문. 이는 효율성과 신뢰성이 부족한 집계된 벤치마크와는 대조적입니다(Perlitz 외, 2023).
    • 비게임성. 질문에 답하려면 몇 가지 단계를 성공적으로 완료해야 하는데, 이러한 단계는 다양하기 때문에 쉽게 강제할 수 없습니다. 추론의 흔적을 확인할 수 있고, 정답에 요구되는 정확성, 인터넷에서 일반 텍스트로 제공되지 않기 때문에 데이터 오염 가능성을 방지할 수 있습니다. 반면, 객관식 답안(예: MMLU)은 잘못된 추론 추적이 정답에 더 쉽게 도달할 수 있기 때문에 오염 평가를 더 어렵게 만듭니다.
    • 사용의 단순성. 결정적으로, 질문에 대한 답변은 사실적이고 간결하며 모호하지 않습니다. 이 두 가지 속성은 간단하고 빠르며 사실에 입각한 평가를 가능하게 합니다. 우리의 질문은 제로 샷으로 답을 구하도록 설계되어 평가 설정의 영향을 제한합니다. 반대로 많은 LLM 벤치마크는 프롬프트의 수와 성격(Liang 외, 2022b)(섹션 8.2) 또는 벤치마크 구현과 같은 실험 설정에 민감한 평가를 요구합니다.

  • 생성형 인공지능으로 가치를 창출하고 파괴하는 방법

    How People Can Create—and Destroy—Value with Generative AI
    BCG

    보스턴 컨설팅 그룹에서 나온 생성형 인공지능에 관한 실험 연구. 추가 설명이 조금 필요하기는 하지만 간단한 요약은 아래와 같다.

    최초의 과학적 실험에 따르면 사람들은 제너레이티브 AI가 엄청난 가치를 창출할 수 있는 분야에서는 이를 불신하고, 그렇지 않은 분야에서는 지나치게 신뢰하는 것으로 나타났습니다.

    • 실험 참가자의 약 90%가 창의적인 아이디어 발상을 위해 GenAI를 사용했을 때 업무 성과가 향상되었습니다. 사람들은 GPT-4의 결과물을 편집하려고 시도하지 않았을 때 가장 좋은 성과를 냈습니다.
    • 도구의 현재 역량을 벗어난 비즈니스 문제 해결 작업을 할 때, 많은 참가자가 GPT-4의 잘못된 결과를 액면 그대로 받아들였습니다. 이들의 성과는 이 도구를 전혀 사용하지 않은 사람들에 비해 23% 더 나빴습니다.
    • 제너레이티브 AI를 도입하는 것은 엄청난 변화 관리 노력입니다. 리더의 역할은 사람들이 새로운 기술을 올바른 방식으로 올바른 업무에 사용하도록 돕고, 끊임없이 확장되는 GenAI의 영역에 맞서 지속적으로 조정하고 적응하도록 돕는 것입니다.

    SSRN에 올라온 페이퍼가 자세한 내용을 담고 있다. LLM 관련 연구로 여러 생각할만한 내용을 보여주지 않나 싶다. 조금 더 자세한 설명.

    1. 창의적 과제와 문제해결 과제를 해결하는 실험에서 생성형 인공지능은 창의적 과제에 활용했을 때 작업 효율을 높이는 것으로 나타남(기준 대비 40% 향상)
      설계: 3집단 실험설계 방식. 사전-사후 평가. 과제에 관해 창의성, 설득력, 분석적사고, 전반적 글쓰기 측면에서 10점 척도로 평가하여 평균 활용. 채점은 블라인드 방식으로 BCG컨설턴트와 학업 과제 채점 경험 있는 경영대학생으로 구성
    2. 생성형 인공지능은 성과를 높이기도 하지만 다수 참가자에게서 잘못된 결과를 그대로 받아들이는 경향도 나타남. 그리고 이러한 양날의 검 효과는 모든 수준의 숙련도를 가진 대상에게서 확인됨. 다만 기본 숙력도가 낮을 수록 영향력이 큼
    3. 기술적 한계에 대해 설명했으나 부정적 영향력은 사라지지 않았음. 오히려 교육을 받은 사람은 평균적으로 더 나쁜 성적을 보임
      설계: 30분간 교육. 효과적으로 사용하는 법을 말하고, 보여주고, 실행하는 코스로 설계. 모범 사례와 문제해결 상황에서 활용시 어려움과 함정에 대한 정보, 추론 실패하는 사례를 보여주며 지나치게 의존하지 않도록 주의를 줌
    4. 개인의 성과 분포에 영향을 줌. 즉 전체 분포가 높은 수준의 성과를 향해 이동. GPT-4는 창의적 제품 혁신 과제에서 매우 높은 수준의 성과를 달성하기에 일반인이 이 결과물을 개선하려고 노력하면 오히려 품질이 하락하는 결과가 나타남 (초안과 10%차이가 증가할때마다 품질 순위는 17%p 하락)
    5. 창의성의 함정. 모두가 비슷한 응답을 제공하기에 개인적 결과물은 향상되지만 집단적으로는 창의성이 사라질 수 있음. 생성형 인공지능의 활용은 아이디어의 다양성을 낮추는 결과를 가져올 수 있음. 인터뷰에서도 비슷한 응답을 확인. 기술에 의존하면 창의성을 억제할 수 있을 것이라고 응답. “다른 기술과 마찬가지로 사람들은 기술에 지나치게 의존할 수 있습니다. GPS는 처음 출시되었을 때 내비게이션에 큰 도움을 주었지만, 오늘날 사람들은 GPS 없이는 운전조차 할 수 없습니다. 사람들이 기술에 지나치게 의존하게 되면 예전에 가졌던 능력을 잃게 됩니다.”
  • EU, 디지털시장법과 플랫폼규제

    EU Challenges Apple, Microsoft in New Push to Rein in Big Tech Dominance
    Bloomberg

    유럽의 디지털 반독점 규제에 해당하는 22개 서비스 목록이 6일 공개되었고, 포함된 사업자는 6개월 내 규칙을 준수하거나 이의를 제기해야한다.

    지난 7월, 집행위는 몇몇 플랫폼이 소위 게이트키퍼로 지정되기 위한 기준을 충족했다고 발표했는데, 여기에는 블록 전체에서 최소 75억 유로(82억 달러)의 매출 또는 시가총액 750억 유로 이상이 포함된다.

    또한 플랫폼 서비스는 EU에서 월간 활성 최종 사용자 수가 4,500만 명 이상이고 연간 활성 비즈니스 사용자 수가 1만 명 이상이어야 규정을 적용받을 수 있습니다.

    해당 서비스 목록

    기업 이름서비스 목록
    AlphabetGoogle Maps, Google Play, Google Shopping, YouTube, Google Search, Chrome, Android, Google Ads
    AmazonMarketplace, Amazon Ads
    AppleApp Store, Safari, iOS
    BytedanceTikTok
    MetaFacebook, Instagram, WhatsApp, Messenger, Marketplace, Meta Ads
    MicrosoftLinkedIn, Windows

  • 테슬라 FSD 관련 아이작슨 전기

    How Elon Musk set Tesla on a new course for self-driving
    CNBC

    월터 아이작슨이 쓴 일론 머스크 전기가 출간되었다. CNBC에 아마도 책의 일부분으로 보이는 일화를 기고했는데 나름 흥미로운 부분들이 보인다. 새로운 FSD을 신경망 기반으로 바꾸는 과정을 이야기하고 있다. 그 전까지 규칙 기반이었던 부분을 학습 기반으로 변경했으며, 이것이 어떤 의미를 가지는지 생각하게 해준다.

    그때까지 Tesla의 오토파일럿 시스템은 규칙 기반 접근 방식에 의존하고 있었습니다. 차량의 카메라가 차선 표시, 보행자, 차량, 표지판 및 교통 신호 등을 식별했습니다. 그런 다음 소프트웨어는 다음과 같은 일련의 규칙을 적용했습니다: 신호등이 적색일 때 정지하고, 녹색일 때 진행하며, 차선 표시의 중앙에 머물고, 충돌할 만큼 빠르게 오는 차가 없을 때만 교차로를 통과하는 등의 규칙을 적용했습니다. Tesla의 엔지니어들은 이러한 규칙을 복잡한 상황에 적용하기 위해 수십만 줄의 C++ 코드를 수작업으로 작성하고 업데이트했습니다.

    여기에서 학습 기반으로 전환하는 과정이 나오는데 머스크가 직원들하고 토론했던 내용도 흥미롭다.

    새로운 인간 모방 접근 방식을 연구하던 중 머스크는 의문이 들었습니다: 이것이 정말 필요했을까? 너무 과한 것은 아닐까요? 그의 격언 중 하나는 파리를 죽일 때는 순항 미사일을 사용하지 말고 파리채를 사용하라는 것이었습니다. 신경망을 사용하는 것이 불필요하게 복잡할까요?

    학습 기반 시스템을 구축하는건 과하다는 생각이 들 수도 있고, 실제로 특정 레벨까지는 제대로 작동하지도 않는다. 이런 부분이 가져올 수 있는 헤자가 분명히 있을 것이다.

    토론 중에 머스크는 팀이 발견한 중요한 사실에 주목했습니다: 신경망은 최소 백만 개의 비디오 클립을 학습하기 전까지는 제대로 작동하지 않았습니다. 덕분에 Tesla는 다른 자동차 및 AI 회사에 비해 큰 이점을 얻을 수 있었습니다. 전 세계 약 2백만 대의 테슬라 차량이 매일 비디오 클립을 수집하고 있었기 때문입니다. 엘러스와미는 회의에서 “우리는 이 일을 할 수 있는 독보적인 위치에 있습니다.”라고 말했습니다.

    역시 마케팅에도 소질이 있구나 하는 부분이 있었는데 “그는 “제임스 본드 스타일의 시연을 해야 한다”며 “사방에서 폭탄이 터지고 하늘에서 UFO가 떨어지는 가운데 자동차가 아무 것도 부딪히지 않고 속도를 내는 장면을 연출해야 한다”고 말했습니다.”라는 부분이었다.

  • 쓸모없어지는것에 대한 두려움

    Thanks to A.I., workers are struggling with “FOBO”—fear of being obsolete ($)
    Fortune

    갤럽 조사에서 근로자의 약 1/4 정도가 빠르게 발전하는 기술이 자신의 직업을 쓸모없게 만들 것이라고 걱정한다. 이를 FOBO (fear of being obsolete)이라고 부른다.

    최근 1,000명의 근로자를 대상으로 실시한 갤럽의 설문조사에 따르면 미국 근로자의 약 4분의 1(22%)이 빠르게 발전하는 기술이 곧 자신의 직업을 쓸모없게 만들지 않을까 걱정하고 있습니다. 기술에 대한 두려움은 2021년 이후 7% 포인트 증가한 반면, 다른 우려는 거의 제자리걸음인 것으로 나타났습니다. 갤럽은 이러한 두려움을 ‘쓸모없어지는 것에 대한 두려움’을 뜻하는 FOBO라고 부르는데, 이는 실패에 대한 두려움을 뜻하는 FOMO에 빗댄 것입니다.

    최근 조사를 보면 대학 학위가 있는 근로자의 불안이 매우 증가하여 2021년 8%에서 20%로 증가했다. 학위가 없는 근로자의 불안은 항상 유사한 수준(24%)이었는데 대졸자의 불안이 이를 따라잡은 것. 젊은 근로자, 연봉 10만달러 이하 근로자가 고연령, 고소득 근로자에 비해 더 불안감을 느끼는 것으로 나타났다.