[작성자:] haeyeop

GAIA, 언어모델 벤치마크
FACEBOOK RESEARCHERS TEST AI’S INTELLIGENCE AND FIND IT IS UNFORTUNATELY QUITE STUPID
The Byte

새로운 대규모 언어 모델 벤치마크에서 기존 모델의 점수가 형편없다는 기사.

AI 대부’이자 메타의 수석 과학자인 얀 르쿤이 포함된 연구팀은 아직 동료 심사를 거치지 않은 논문에 따르면 “인간에게는 개념적으로 간단하지만 대부분의 고급 AI에게는 어려운” 466개의 문항으로 구성된 GAIA라는 시험을 고안해냈습니다.

인간 응답자는 92%의 질문에 정답을 맞힌 반면, 수동으로 선택한 일부 플러그인을 장착한 GPT4는 15%에 불과했습니다. 이 팀이 발표한 GAIA 순위표에 따르면 OpenAI가 최근 출시한 GPT4 Turbo의 점수는 10% 미만이었습니다.

GAIA 목표가 무엇인지 해당 아카이브 논문의 일부 내용.
인간에게는 어려운 작업 대신, 개념적으로는 간단하지만 조합 공간이 큰 복잡한 작업 시퀀스를 정확하게 실행해야 하는 작업을 AI 시스템에 요청할 수 있습니다. 컴퓨터에게 해결책을 쉽게 검증할 수 있는 복잡한 문제를 풀도록 요청하는 작업 증명 알고리즘(Jakobsson and Juels, 1999; Dwork and Naor, 1993)과 유사하게, 작업을 성공적으로 완료해야만 결과를 얻을 수 있고 검증이 용이해야 합니다. 다양하고 불확실한 세계에 접근해야 하는 인공지능 비서를 위한 작업은 본질적으로 실제 사용 사례에 뿌리를 두면서 이 기준을 충족해야 합니다.

우리는 이러한 방향으로 나아가기 위해 466개의 세심하게 만들어진 질문과 그에 대한 답변, 그리고 관련 설계 방법론으로 구성된 일반 AI 어시스턴트의 벤치마크인 GAIA를 제안합니다. 우리의 질문은 만들기도 쉽고, AI 시스템(LLM의 경우 대부분 복잡한 생성이 필요함)에 도전적이지만, 독특하고 사실적인 답변을 인정하여 간단하고 강력한 자동 평가가 가능합니다.

GAIA는 다음과 같은 목표를 통해 현재 LLM 평가의 함정을 피하고자 합니다:
- 실제적이고 도전적인 질문. 예를 들어, LLM은 일반적으로 개방적이고 변화하는 웹을 탐색하거나, 다중 모달리티를 처리하거나, 질문에 답하기 위해 여러 단계를 거쳐 추론해야 합니다. 반대로, 많은 LLM 벤치마크는 매우 구체적이거나 폐쇄적이고 합성된 환경으로 제한되어 있습니다.
- 개념적으로 간단한 작업을 통한 쉬운 해석 가능성(비전문가인 주석가도 만점에 가까운 점수를 나타냄), 관련 추론 추적, 몇 개 되지 않지만 고도로 선별된 질문. 이는 효율성과 신뢰성이 부족한 집계된 벤치마크와는 대조적입니다(Perlitz 외, 2023).
- 비게임성. 질문에 답하려면 몇 가지 단계를 성공적으로 완료해야 하는데, 이러한 단계는 다양하기 때문에 쉽게 강제할 수 없습니다. 추론의 흔적을 확인할 수 있고, 정답에 요구되는 정확성, 인터넷에서 일반 텍스트로 제공되지 않기 때문에 데이터 오염 가능성을 방지할 수 있습니다. 반면, 객관식 답안(예: MMLU)은 잘못된 추론 추적이 정답에 더 쉽게 도달할 수 있기 때문에 오염 평가를 더 어렵게 만듭니다.
- 사용의 단순성. 결정적으로, 질문에 대한 답변은 사실적이고 간결하며 모호하지 않습니다. 이 두 가지 속성은 간단하고 빠르며 사실에 입각한 평가를 가능하게 합니다. 우리의 질문은 제로 샷으로 답을 구하도록 설계되어 평가 설정의 영향을 제한합니다. 반대로 많은 LLM 벤치마크는 프롬프트의 수와 성격(Liang 외, 2022b)(섹션 8.2) 또는 벤치마크 구현과 같은 실험 설정에 민감한 평가를 요구합니다.
10월 29, 2025
퓨리서치: 뉴스 이용자의 감소추세

Americans are following the news less closely than they used to

사람들이 점점 뉴스를 보지 않는다는 사실은 그다지 새로운 결과는 아닐수 있다. 국내에서 조사한 한국언론진흥재단 <디지털 뉴스 리포트 2022>에도 나오는 이야기이기도 하다. 퓨 리서치에서 조사한 결과도 유사한 이야기를 하고 있다. 뉴스를 집중해서 보는 사람이 줄어들고 있으며, 이는 전 연령, 교육, 성별, 인종, 민족, 정치성향 포함한 인구통계 특성 전반에 나타나는 결과라고 한다.

10월 29, 2025
스크린타임과 아동 인지발달

No evidence screen time is negative for children’s cognitive development and well-being: Oxford Study

옥스포드 인터넷 연구소, 옥스포드 대학교, 오레곤 대학교, 틸버그 대학교, 캠브리지 대학교의 연구진은 미국에서 뇌 발달과 아동 건강에 관한 최대 규모의 장기 연구인 청소년 뇌 인지 발달 (ABCD) 연구의 데이터를 사용하여 9~12세 아동의 인지 기능과 자가 보고한 스크린 시간 사용 현황을 분석했습니다 .

Cortex저널에 게재된 이 연구는 2년에 걸쳐 참여 어린이들이 매일 디지털 활동에 소비하는 시간을 추정하는 방식으로 진행되었습니다. 아이들의 응답은 전혀 시간이 없다는 답변부터 하루에 4시간 이상이라는 답변까지 다양했습니다.

스크린 타임 활동에는 TV 프로그램이나 영화 시청 , YouTube와 같은 디지털 플랫폼을 이용한 동영상 시청과같은 ‘전통적인’ 스크린 활동뿐만 아니라 비디오 게임과 같은 인터랙티브 활동도포함되었습니다. 또한 앱, 전화, 화상 통화, 소셜 미디어를 통해 다른 사람들과 소통하는 것에 대해서도 질문했습니다.

디지털 참여율이 높은 참가자의 경우에도 아동의 뇌 발달에 장애가 있다는 증거는 발견되지 않았습니다.

우리는 여전히 잘못된 원인에 기대서 세상을 살아가고 있는지도 모른다.

10월 29, 2025
뉴욕타임스 생성 인공지능 채용 공고
Newsroom Generative AI Lead
NYT

생성 인공지능 관련 채용 공고. 저널리즘 경력을 갖추고 있어야하며, 기술적인 부분에 대한 이해도 높은 사람을 찾는다. 그래서인지 코딩 능력은 선호되지만 필수는 아니라고. 전반적인 프로세스를 이해해서 업무를 관리하고 생성 인공지능 관련 업무를 기존 업무에 통합시킬 수 있는 사람을 찾는 듯. 아래는 전문.
뉴욕타임즈의 사명은 진실을 추구하고 사람들이 세상을 이해하도록 돕는 것입니다 . 이는 독립적인 저널리즘이 회사에서 하는 모든 일의 핵심이라는 것을 의미합니다. 이것이 바로 160여 개국에서 기자를 파견하여 현지에서 취재하는 세계적으로 유명한 뉴스룸이 있는 이유입니다. 또한 인쇄물부터 오디오, 세계적 수준의 디지털 및 앱에 이르기까지 독자가 저널리즘을 경험하는 방식에 깊이 집중하는 이유이기도 합니다. 또한 비즈니스 전략의 중심이 돈을 지불할 가치가 있을 만큼 좋은 저널리즘을 만드는 데 있는 이유이기도 합니다.

직무 설명

뉴욕타임스는 야심차고 책임감 있게 제너레이티브 인공지능을 활용하려는 뉴스룸의 노력을 이끌 선임 편집자를 찾고 있습니다.

이 편집자는 더 타임스가 GenAI 혁신과 저널리즘에 대한 응용 분야의 리더가 될 수 있도록 하는 책임을 맡게 됩니다. 이들은 뉴스룸 내부뿐만 아니라 독자를 대면하는 방식으로 GenAI 도구를 사용하기 위한 우리의 노력을 이끌 것입니다. 이를 위해 이 기술에 접근하는 방식에 대한 비전을 구체화하고, 기회와 한계 및 위험에 대해 뉴스룸의 선도적인 목소리를 낼 것입니다.

이 리더는 뉴스룸 전체에서 새로운 기능을 프로토타이핑하고 실험을 진행하는 소규모 저널리스트 및 기술자 팀을 관리합니다. 가장 설득력 있는 접근 방식을 위해서는 뉴스 데스크 및 여러 부서의 제품 팀과 협력하여 프로젝트를 프로토타입 단계에서 프로덕션 단계로 끌어올려야 합니다. 편집자의 주요 초점은 GenAI 도구를 타임즈 저널리즘과 워크플로우에 통합할 수 있는 높은 잠재력과 책임감 있는 방법을 보여주는 프로젝트를 꾸준히 제작하는 것입니다.

이들은 기술이 발전함에 따라 더 타임즈가 업계의 최신 동향을 파악하고 있는지 확인하고 새로운 기회와 취약점을 지속적으로 경계해야 합니다. 또한 그에 따라 우선순위와 계획의 조정을 권고해야 합니다.

이 리더는 또한 진화하는 기술의 특성과 위험성을 고려하여 표준 부서와 협력하여 뉴스룸 전체에서 기자들이 GenAI를 사용하는 방법에 대한 추가 지침을 수립하는 데 도움을 줄 것입니다.

구체적인 책임은 다음과 같습니다:
- 마스트헤드와 함께 더 타임즈가 뉴스 보도와 관련된 제너레이티브 인공 지능을 활용하는 방법에 대한 비전을 설정합니다.
- 뉴스룸 및 회사 리더들과 협력하여 모든 제품에 GenAI를 적용하기 위한 광범위한 전략을 수립합니다.
- 연구, 프로토타입 개발, 실험을 수행할 수 있는 저널리스트, 기술자, 디자이너로 구성된 팀을 관리합니다.
- 더 타임즈 뉴스 보도에 가장 유망한 GenAI 아이디어를 평가하고, 어떤 아이디어를 먼저 탐색해야 하는지 우선순위를 정하고, 어떤 아이디어가 편집상의 장점이나 기타 이점을 충분히 갖추고 있는지 판단하여 각 단계에서 제품 팀과 효과적으로 파트너십을 맺습니다.
- 회사 내 다른 부서와의 협업에서 GenAI에 대한 뉴스룸의 관점을 대변하고, 제품, 디자인, 기술 분야의 리더들과 협력하여 아이디어를 프로토타입 상태에서 생산 단계로 끌어올리기 위해 노력합니다.
- 새로운 기능을 프로토타이핑하는 팀의 실행 관리
- 뉴스룸 전반에서 기자들이 GenAI를 폭넓게 실험하고 사용하는 것을 감독합니다.
- GenAI 분야의 최신 연구 및 개발에 대한 최신 정보 파악엔지니어링 및 다른 기업과의 파트너십을 통해 알고리즘 편향성 평가를 포함한 GenA.I 도구 검증
기본 자격
- 저널리즘의 품질과 프로세스, 표준과 윤리에 대해 올바른 판단을 내릴 수 있는 풍부한 저널리즘 경험
- 언어 모델의 작동 방식과 저널리즘 맥락에서 언어 모델을 평가하는 방법을 이해하는 등 기술적 호기심과 유창성. 코딩 능력은 선호되지만 필수는 아니지만 기술에 대해 토론하고 참여하는 데 유창한 능력이 필요합니다.
- 다양한 기능의 제품 개발 팀을 이끌거나 함께 일한 경험
- 동시에 여러 작업을 진행하는 민첩한 팀을 관리하고 프로젝트를 체계적으로 관리할 수 있습니다.
- 부서 간 이해관계자의 긍정적인 파트너 역할을 수행하고 우선순위가 높은 업무에 대해 리더십과 효과적으로 소통한 경험
선호 자격
- 더 타임즈 또는 기타 유사한 뉴스 조직에서 복잡하고 리스크가 큰 프로젝트를 진행한 경험이 있으면 적극 권장됩니다.
- 창의적인 사고방식과 폭넓은 비전과 큰 아이디어를 더 타임즈의 저널리즘에 적용하고, 업무의 우선순위를 정하고 해당 전략을 지원하기 위해 절충안을 도출할 수 있는 능력
이 역할의 연간 기본 급여는 $180,000.00에서 $220,000.00 사이입니다.

뉴욕타임즈는 다양한 글로벌 커뮤니티를 반영하는 다양하고 포용적인 인력을 확보하기 위해 최선을 다하고 있습니다. 우리의 저널리즘과 저널리즘을 위해 구축하는 제품은 모든 직급, 모든 수준의 조직에서 모든 유형의 다양성에서만 나올 수 있는 다양한 관점의 이점을 크게 누릴 수 있습니다. 진정한 다양성과 포용성을 달성하는 것은 옳은 일입니다. 또한 비즈니스에도 현명한 일입니다. 따라서 여성, 재향군인, 장애인, 유색인종, 성별 부적합 후보자의 지원을 적극 권장합니다.

뉴욕타임즈는 기회 균등 고용주로서 개인의 성별, 나이, 인종, 피부색, 신념, 출신 국가, 외국인, 종교, 결혼 여부, 임신, 성적 지향 또는 애정 취향, 성 정체성 및 표현, 장애, 유전적 특성 또는 성향, 보인자 신분, 시민권, 퇴역 또는 군 복무 여부 및 기타 법으로 보호되는 개인적 특성에 근거하여 차별하지 않습니다. 모든 지원자는 법적으로 보호되는 특성에 관계없이 채용 시 고려 대상이 됩니다. 뉴욕타임즈 회사는 해당 연방법, 주법 및/또는 지방법에서 요구하는 바에 따라 합리적인 편의를 제공할 것입니다. 지원 또는 면접 과정에서 편의가 필요한 개인은 이메일( reasonable.accommodations@nytimes.com)로 문의하시기 바랍니다.지원서 후속 조치 등 지원과 무관한 문제로 보낸 이메일은 응답을 받지 못합니다 .

당사는 관련 “공정한 기회” 법률의 요건에 부합하는 방식으로 범죄 경력이 있는 지원자를 포함하여 자격을 갖춘 지원자를추가로 고려할것입니다.

뉴욕타임즈 컴퍼니는 미국 연방 계약 준수 프로그램 사무소에서 정한 급여 투명성 및 차별 금지 조항을 준수합니다. 자세한 내용을 보려면 여기를 클릭하세요.
10월 29, 2025
인공지능 활용이 나쁜 아이디어라는 인공지능의 사설

Editorial: AI wrote this editorial. It offers persuasive arguments for why that’s a bad idea.
St. Louis Post-Dispatch

인공지능을 저널리즘에 활용하는 것에 대해 인공지능에게 사설을 쓰게 한 세인트루이스 포스트 디스패치. 전문을 읽어보고 개별 주장에 비판해보는 것도 나쁘지 않을 듯.

편집자 주: 최근 인공지능이 저널리즘에서 많은 논란을 불러일으키고 있는 가운데, 포스트 디스패치 편집위원회는 “인공지능을 저널리즘에 사용해서는 안 된다고 주장하는 신문 사설을 작성하라”는 명령을마이크로소프트의 빙 채팅 인공지능 프로그램이어떻게 처리할지궁금해했습니다.

아래는 스타일을 위해 살짝 편집했지만 프로그램에서 그대로 가져온 결과입니다.

Bing Chat은 저널리즘에서 인공지능을 배제해야 한다는 명쾌하고 설득력 있는 주장을 펼친 것으로 나타났습니다. 아이러니하고 충격적인 실험의 성공이지만, 이 실험이 동료 인간들 사이에서 토론을 불러일으키기를 바랍니다.

10월 29, 2025
죽은 NFT 시장
Dead NFTs: The Evolving Landscape of the NFT Market
dappGambl

기사를 보고 정리를 안 하고 있었더니 이미 다른 곳에서도 많이 언급된 이야기

NFT는 상승세를 보이다 폭락했다. 23년 7월 주간 거래액은 약 8천만 달러로, 2021년 8월 최고치의 3%에 불과했다. 과연 미래는 있을 것인가? NFT 스캔에서 제공한 데이터를 사용해 73,257개 이상의 NFT 컬렉션 (정확히 73,257개)에 대한 종합적인 분석을 작성했다. 결과에 따르면 73,257개의 NFT 컬렉션 중 69,795개의 시가총액이 0 이더(ETH)인 것으로 나타났다. 즉, NFT를 보유한 사람의 95%가 현재 가치가 없는 투자자산을 보유하고 있다고 할 수 있다. 또한 전체 NFT 컬렉션의 79%, 즉 5개 중 4개가 미판매 상태로 남아있다. 그러면서 실제 사용사례에 대해 언급한다.
시장 침체를 극복하고 지속적인 가치를 가지려면 대체 불가능한 토큰은 역사적으로 관련성이 있거나(초판 포켓몬 카드처럼), 진정한 예술품이거나, 진정한 유용성을 제공해야 합니다.
- 문화유산 보존: 대체 불가능한 토큰은 문화 유물을 디지털화하고 보호하는 데 사용되어 블록체인에서 고유하고 불변하는 지위를 부여할 수 있습니다.
- 게임: NFT로 표시되는 고유한 게임 내 자산은 다양한 게임 환경에서 구매, 판매 및 사용할 수 있습니다.
- 토큰 게이트 액세스: NFT는 보유자에게 이벤트, 콘텐츠 또는 서비스에 대한 특별 액세스 권한을 부여할 수 있습니다.
- 부분 소유권: 기본적으로 단일 자산을 나타내는 대체 불가능한 토큰은 여러 부분으로 분할할 수 있으며, 주식처럼 생각하면 주식과 같습니다. 이를 통해 여러 소유자가 NFT에 지분을 보유할 수 있으므로, 일반인이 자산/예술에 훨씬 더 쉽게 접근할 수 있습니다.
- 부동산: 소유한 자산을 대체 불가능한 토큰으로 토큰화하여 블록체인 플랫폼에서 자산을 판매할 수 있으며, 이를 통해 훨씬 쉽게 판매할 수 있는 경로를 제공할 수 있습니다.
- 디지털 신원: 온라인 익명성에는 위험이 따를 수 있으며, NFT는 온라인 페르소나, 자격 증명 또는 자격이 검증 가능하고 고유한지 확인하는 데 사용될 수 있습니다.
10월 29, 2025
ChatGPT 설명

보고서를 쓰면서 읽었던 몇 가지 글. ChatGPT와 같은 언어모델이 어떻게 작동하는지를 설명하는 내용이다. 조금 더 평이한 글로 쓰여진 것도 있고, 약간 수학적인 부분이 포함된 내용도 있다.

Generative AI exists because of the transformer (FT.com)
What Is ChatGPT Doing … and Why Does It Work? (Stephen Wolfram)

10월 29, 2025
주커버그 인터뷰

퀘스트3를 가지고 메타버스에서 인터뷰를 했다.

Here's my conversation with Mark Zuckerberg, his 3rd time on the podcast, but this time we talked in the Metaverse as photorealistic avatars. This was one of the most incredible experiences of my life. It really felt like we were talking in-person, but we were miles apart 🤯 It's… pic.twitter.com/Nu8a3iYWm0
— Lex Fridman (@lexfridman) September 28, 2023

10월 29, 2025
파이퍼샌들러: 23년 가을 미국 10대 조사
46th Semi-Annual Taking Stock With Teens® Survey, Fall 2023 [PDF]

미국에서 연 2회 실시하는 미국 10대 대상의 설문조사. 우리나라와 다른 점도 있지만 미국에서 유행하는게 우리나라의 유행이 되기도 하니까. 그냥 몇 가지 내 눈에 띄는 사실들..
- 10대의 87%가 iPhone을 소유하고 있으며, 88%가 다음 휴대전화가 iPhone이 될 것으로 예상하고 있으며, 34%가 Apple Watch를 소유하고 있습니다.
- 10대의 70%가 지난 6개월 동안 Spotify를 사용했으며(68%에서 증가), 10대의 46%가 Spotify 구독/결제를 선택했습니다(44%에서 증가).
- 가장 선호하는 소셜 플랫폼(점유율 38%)은 TikTok으로 ’23년 봄 대비 80bps 소폭 상승했습니다. 스냅은 28%의 점유율로 2위를 차지했고, Instagram(23%)이 그 뒤를 이었습니다.
- 10대는 일일 동영상 소비의 28.7%를 넷플릭스(-220bps, ’23년 봄 대비)에서, 29.1%를 유튜브(29.1%, ’23년 봄 대비)에서 소비합니다. (+100bps vs. ’23년 봄)
- 10대의 55%는 가장 좋아하는 이커머스 사이트로 Amazon을 꼽았으며, SHEIN, Nike, GOAT, 그리고 Temu가 2~5위를 차지했습니다.
- 1위인 Nike는 의류(35%)와 신발(61%) 부문 모두에서 전체 10대가 선호하는 브랜드 1위를 유지했습니다.
나이키는 한창때 비해 좀 덜 쿨하지 않은가 했는데 다른 2위 브랜드와 압도적인 차이로 1위이다. 주식 다 판지 좀 됐는데 그래도 조금 사봐야하는걸까?
10월 29, 2025
미국 텔레비전 광고 인벤토리 감소

2023년부터 2027년까지 미국 전체 TV(스트리밍/TV 포함) 광고 시간, 24% 감소할 것으로 예상

다음과 같이 TV광고 시간 감소를 추정하고자 함을 이야기한다.

1) 스트리밍이 TV 소비에서 차지하는 비중이 계속 증가하고 있고 2) 많은 SVOD 서비스의 소비자는 일반적으로 광고 없는 옵션을 선택하기를 원하며 3) 스트리밍 동영상의 대부분을 차지하는 온디맨드 환경에서 광고가 바람직하지 않다는 점을 고려할 때 나머지 서비스의 대부분은 광고가 적을 수밖에 없는 상황에서 총 시청률 포인트 또는 TV 광고 시간 감소를 추정하려고 시도

그래서 보수적으로 가정했을 때, 미국 텔레비전은 향후 4년간 24%의 인벤터리를 잃게 될 것이라고 전망한다. 수치를 추정하는데 사용한 몇 가지 가정에 관해서도 밝히고 있다.

젊은 시청자층에 따라 다른 트렌드가 나타나겠지만, 마케터들은 인구통계학적 그룹보다는 고급 시청자층에 점점 더 집중할 수 있습니다. … Nielsen의 최근 발표에서 인구통계학적 분석이 제공되는 경우 18-49세 시청자는 스트리밍 콘텐츠를 훨씬 더 많이 소비합니다(TV 사용 시간의 55% vs. 전체 인구의 38%), 향후 5년 동안 이 젊은 시청자들이 스트리밍 서비스에서 TV 콘텐츠의 70% 이상을 소비할 것이라고 상상하는 것은 어렵지 않습니다. 하지만 18~49세 시청자의 TV 소비 비중은 “겨우” 32%에 그칩니다.

10월 29, 2025