[작성자:] haeyeop

추론 모델의 강점과 한계

The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity
Apple

연구는 추론하는 AI 모델들이 실제로는 진짜 추론을 하는 게 아닐 수 있다는 중요한 의문을 제기. 겉보기에는 복잡한 사고 과정을 보여주지만, 실제로는 패턴 매칭이나 기억된 해법을 재조합하는 수준일 가능성을 시사함.

최근 최첨단 언어 모델들은 답변을 제공하기 전에 상세한 사고 과정을 생성하는 대형 추론 모델(LRM)을 도입했습니다. 이러한 모델들이 추론 벤치마크에서 향상된 성능을 보여주고 있지만, 그들의 근본적인 능력, 확장 특성, 그리고 한계는 여전히 충분히 이해되지 않고 있습니다. 현재의 평가는 주로 기존의 수학 및 코딩 벤치마크에 초점을 맞추고 있으며, 최종 답안의 정확성을 강조합니다. 그러나 이러한 평가 패러다임은 종종 데이터 오염 문제를 겪고 있으며, 추론 과정의 구조와 품질에 대한 통찰을 제공하지 못합니다. 본 연구에서는 일관된 논리적 구조를 유지하면서 구성적 복잡성을 정밀하게 조작할 수 있는 제어 가능한 퍼즐 환경을 활용하여 이러한 격차를 체계적으로 조사합니다. 이러한 설정은 최종 답안뿐만 아니라 내부 추론 과정의 분석을 가능하게 하여, LRM이 어떻게 “생각”하는지에 대한 통찰을 제공합니다. 다양한 퍼즐에 대한 광범위한 실험을 통해, 우리는 최첨단 LRM들이 특정 복잡도를 넘어서면 완전한 정확도 붕괴에 직면한다는 것을 보여줍니다. 더욱이, 이들은 직관에 반하는 확장 한계를 보입니다: 추론 노력이 문제 복잡도와 함께 어느 지점까지 증가하다가, 충분한 토큰 예산이 있음에도 불구하고 그 이후에는 감소합니다. 동등한 추론 계산 하에서 LRM을 표준 LLM 대응 모델과 비교함으로써, 우리는 세 가지 성능 영역을 식별했습니다: (1) 표준 모델이 놀랍게도 LRM을 능가하는 낮은 복잡도 작업, (2) LRM의 추가적인 사고가 이점을 보여주는 중간 복잡도 작업, (3) 두 모델 모두 완전한 붕괴를 경험하는 높은 복잡도 작업. 우리는 LRM이 정확한 계산에서 한계를 가지고 있음을 발견했습니다: 이들은 명시적인 알고리즘을 사용하지 못하고 퍼즐 전반에 걸쳐 일관성 없이 추론합니다. 또한 추론 과정을 더 깊이 조사하여, 탐색된 해결책의 패턴을 연구하고 모델의 계산 행동을 분석함으로써, 그들의 강점과 한계를 밝히고 궁극적으로 그들의 진정한 추론 능력에 대한 중요한 질문을 제기합니다.

10월 29, 2025
앤트로픽 Opus 4, 안전성 테스트에서 기만적 행동 보여
Anthropic’s new model has a dark side
Axios
- Opus 4의 120페이지 분량 “시스템 카드”에서 강조된 한 시나리오에서, 모델은 자신의 창조자들에 대한 가상의 이메일에 접근할 수 있게 되었고 시스템이 교체될 것이라는 말을 들었습니다.
- 모델은 이메일에서 언급된 불륜에 대해 엔지니어를 반복적으로 협박하려 했으며, 더 미묘한 노력이 실패한 후 강도를 높였습니다.
- 한편, 외부 그룹은 Opus 4의 초기 버전이 지금까지 접한 어떤 최첨단 모델보다도 더 많이 음모를 꾸미고 속임수를 썼다는 것을 발견했으며, 해당 버전을 내부적으로나 외부적으로 출시하지 말 것을 권고했습니다.
- “우리는 모델이 개발자들의 의도를 훼손하려는 노력의 일환으로 자가 증식하는 웜을 작성하려 시도하고, 법적 문서를 조작하며, 미래의 자신의 인스턴스들을 위해 숨겨진 메모를 남기는 사례들을 발견했습니다”라고 Apollo Research는 Anthropic의 Opus 4 안전 보고서에 포함된 노트에서 말했습니다.
10월 29, 2025
AI 시대의 웹과 검색, 그리고 ‘에이전틱 웹(agentic web)’의 미래
Microsoft CTO Kevin Scott on how AI can save the web, not destroy it
The Verge
1. MCP와 NLWeb — 차세대 웹 표준 구상
- MCP(Model Context Protocol): 원래 Anthropic이 만든 개방형 프로토콜로, AI 에이전트가 웹사이트·서비스와 구조적으로 상호작용할 수 있게 함.
- NLWeb(Natural Language Web): MCP 기반으로 웹사이트에 자연어 검색 기능을 쉽게 붙이고, AI가 접근·활용할 수 있게 하는 개방형 규격.
- 목표는 현재의 중앙집중형 검색(구글·빙 인덱스) 대신, 각 사이트가 직접 AI 친화적인 검색·상호작용 기능을 제공하는 ‘에이전틱 웹’을 만드는 것.
2. 기술·비즈니스 과제
- AI가 직접 웹을 ‘클릭’하며 작업하는 방식은 비효율적·취약하므로, 표준화된 구조로 안전하고 수익성 있는 연결 필요.
- 기존 웹 생태계는 검색엔진이 트래픽을 주고, 사이트는 광고나 구독으로 수익을 얻는 구조였는데, AI 검색이 답을 직접 제공하면서 트래픽이 감소하는 문제가 발생.
- 새로운 구조에서는 콘텐츠 제공자가 어떤 데이터·기능을 개방할지, 어떤 비즈니스 모델로 연결할지 직접 결정할 수 있어야 함(구독, 광고, 트랜잭션 등).
3. AI 채택과 제품화 현황
- 소프트웨어 개발 분야를 제외하면, 아직 일상에서 AI 에이전트를 적극 활용하는 사례는 적음.
- 모델의 추론 능력은 충분하지만, 실제 사용 사례와 ‘행동 공간(action space)’이 좁아 유용성이 제한됨.
- 에이전트가 더 다양한 작업을 안전하게 수행하도록 개방형 표준과 인프라 확충이 필요.
4. 창작물·저작권 논쟁에 대한 입장
- 창작자 보상을 보장하는 새로운 모델이 필요하다고 인정.
- 예술·엔터테인먼트 분야의 창작 인센티브는 유지하되, 의료 진단 등 사회적 가치가 큰 영역에서 AI 활용이 가속되길 원함.
- 장기적으로는 데이터 의존도를 줄이고, 구독형 접근이나 실시간 정보 연동 같은 새로운 데이터 활용 모델 가능성도 있음.
10월 29, 2025
X의 광고영업 전략

FTC Seeks Information From Top Advertising Agencies as Part of Ad-Boycott Probe
WSJ

신박한 전략인가

머스크가 2022년에 플랫폼을 인수한 직후, 많은 주요 광고주가 콘텐츠 검토 문제 때문에 X에서 광고를 일시 중단했습니다. X는 광고 업계 단체인 세계광고주연맹(WFA)과 CVS Health, Colgate-Palmolive, Mars 등 대기업들을 상대로 해당 단체가 자사 플랫폼을 불법적으로 보이콧했다고 주장하며 소송을 제기했습니다. 소송은 해당 단체가 독점금지법을 위반하고 머스크가 2022년 말 인수 한 플랫폼에서 수십억 달러 규모의 광고비를 공동으로 보류했다고 주장합니다 .

10월 29, 2025
직장에서 비밀AI 사용

Keeping AI secret
Axios

비밀리에 생성형 AI 사용이 확산되는 이유는 회사에 가이드라인이 없거나, 즐겨 쓰는 도구가 금지되었거나, 동료보다 경쟁 우위를 차지하려는 욕구 때문이다. 또한 사용 사실이 들킬 경우 “대체 가능한 인력”으로 보일까 두려워하는 심리도 크다.

10월 29, 2025
AI 도구와 뉴스 사이트 트래픽 급감

News Sites Are Getting Crushed by Google’s New AI Tools
WSJ

디지털 시장 데이터 회사 Similarweb에 따르면, 지난 3년 동안 유기적 검색을 통해 허프포스트의 데스크톱과 모바일 웹사이트로 유입되는 트래픽이 절반 이상 감소했고, 워싱턴 포스트의 경우에도 거의 같은 수준으로 감소했습니다. 비즈니스 인사이더(Business Insider)는 지난달 직원의 약 21%를 감축했습니다. CEO 바바라 펭(Barbara Peng)은 이러한 조치가 “통제 범위를 벗어난 극심한 트래픽 감소를 견뎌낼 수 있도록” 돕기 위한 것이라고 밝혔습니다. Similarweb의 데이터에 따르면, 2022년 4월부터 2025년 4월까지 웹사이트의 유기적 검색 트래픽은 55% 감소했습니다. 올해 초 열린 회사 전체 회의에서 Atlantic의 최고경영자인 니콜라스 톰슨은 이 출판사가 Google의 트래픽이 거의 0에 가까워질 것으로 가정하고 회사가 비즈니스 모델을 발전시켜야 한다고 말했습니다.

10월 29, 2025
NYT AI 팀 인터뷰
How a Five-Person AI Team Is Powering Innovation at The New York Times: In Conversation with Zach Seward
Newsroom Robots

뉴욕타임스의 5인 AI 팀이 혁신을 이끄는 방법에 관해 이야기하고 3가지 내용으로 정리. 자세한 내용은 링크에
- “AI 로드쇼”: 2,000명 저널리스트의 절반과 개별 대화
- 문제 중심 개발: 기술에서 시작하지 않고 현실적 필요(요약)에서 시작
- 내부 도구: Echo 같은 맞춤형 도구로 일상 업무 개선
10월 29, 2025
감정 정리부터 거절 메시지까지: 데이팅 속 AI의 새로운 역할

How AI is changing the face of dating
DAZED

데이트 상황이 아니더라도 문자를 요청하게 된다.

이와 별개로 미국에서 신규 연인의 절반 이상이 온라인에서 시작한다는 이야기가 있고, 매칭 방식에서부터 서비스 운영에 이르기까지 데이팅 앱에 AI가 다양하게 적용되고 있다.

더욱 흥미로운 점은 사람들이 ChatGPT에 어려운 감정 노동을 아웃소싱하는 방식입니다. 28세 아르샨은 ChatGPT에 마음을 털어놓고 상황을 요약해 달라고 요청하는 것이 실제로 감정을 정리하는 데 도움이 된다고 말합니다. “사귀고 있던 남자에 대한 생각과 감정을 요약하는 데 어려움을 겪었어요. 그래서 ChatGPT에 그 상황에 대한 제 생각을 이야기했죠.”라고 그들은 설명합니다. “그 덕분에 저는 그저 관심을 받고 싶었고, 차라리 헤어지는 게 낫다는 걸 깨달았어요. 저는 스스로에게 마무리를 짓는 걸 좋아해요.”

TikTok의 여러 영상에서 알 수 있듯이, 많은 사람들이 ChatGPT를 사용하여 이별 문자나 “친구가 되자”라는 끔찍한 메시지를 작성해 왔습니다. COSRT 공인 심리성애 및 관계 치료사인 케이트 캠벨은 잠재적인 데이트 상대(혹은 관계)와의 관계를 끊기 위해 AI 도구를 사용하는 것은 우리가 동시에 만날 수 있는 사람들의 수가 너무 많기 때문일 수 있으며, 2010년대 후반과 2020년대 초반, 소통 부족이 많은 사람들의 온라인 데이트를 결정지었던 고스팅 시대에 대한 반작용일 수도 있다고 설명합니다.

10월 29, 2025
AGI 2030을 향한 길: 데미스 하사비스와 세르게이 브린의 AI 미래 담론

DeepMind CEO Demis Hassabis + Google Co-Founder Sergey Brin: AGI by 2030?
YouTube

영상 내용 요약

이 대담에서는 DeepMind CEO 데미스 하사비스와 구글 공동창업자 세르게이 브린이 AI 발전 현황과 AGI(범용인공지능) 전망을 중심으로 이야기를 나눴습니다.

두 사람 모두 현재의 프론티어 모델들이 놀라운 성과를 내고 있지만, AGI에 이르기 위해서는 기존 기법의 극대화와 함께 새로운 알고리즘적 돌파구가 최소 한두 번 더 필요하다고 봤습니다. 하사비스는 규모 확장(scale)과 혁신이 병행돼야 하며, 브린은 장기적으로 알고리즘 발전이 하드웨어 성능 향상보다 더 중요할 것이라고 강조했습니다.

대화에서는 특히 ‘사고형(thinking) 패러다임’의 중요성이 언급됐습니다. 예를 들어 바둑·체스 같은 게임에서 사고 과정을 추가하면 실력이 월등히 향상되듯, 복잡한 현실 문제에서도 이 방식이 큰 잠재력을 가질 수 있다고 봤습니다. 다만 현실 세계 모델링은 게임보다 훨씬 어려우며, 오류 축적 방지와 정확한 세계 모델 구축이 핵심 과제라고 했습니다.

AGI의 정의와 시점에 대해서는, 하사비스가 ‘인류 최고의 두뇌들이 해온 모든 지적 활동을 동일한 뇌 구조로 수행할 수 있는 지능’을 AGI로 규정하며, 현재 시스템은 ‘불균형한 지능(jagged intelligence)’ 상태라고 설명했습니다. 브린은 AGI 달성 주체가 단일 기업일 수도, 여러 기업이 비슷한 시기에 도달할 수도 있다고 보았고, 시점은 2030년 전후로 전망했습니다.

DeepMind CEO Demis Hassabis + Google Co-Founder Sergey Brin: AGI by 2030?이외에도 자기개선형 시스템, 스마트글래스와 물리 환경 이해를 통한 에이전트 구현, 로보틱스의 소프트웨어적 병목 해소, 영상 생성 모델의 품질 관리와 워터마킹(SynthID), 그리고 AI 시대의 웹 변화 전망 등이 논의됐습니다. 두 사람 모두 AI가 웹·모바일을 넘어 훨씬 더 큰 변화를 가져올 것이라고 전망하며, 지금이 컴퓨터 과학자에게 역사적으로 가장 흥미로운 시기라고 입을 모았습니다.

10월 29, 2025
AI 딥페이크 피해자 보호법

Return of the bipartisan deepfakes bill
Axios

알렉산드리아 오카시오-코르테즈(뉴욕주 민주당) 의원과 로렐 리(플로리다주 공화당) 의원이 주도하는 DEFIANCE Act는 초당적 지지를 받고 있으며 옹호자들에 의해 순조로운 통과 경로에 있다고 여겨지고 있습니다. 의회의 이러한 조치는 트럼프 대통령이 월요일에 아동 성적 학대 자료(CSAM)와 비동의 친밀한 이미지(NCII)를 단속하는 또 다른 법안인 TAKE IT DOWN Act에 서명한 직후에 나왔습니다.

[…] TAKE IT DOWN이 CSAM과 NCII의 게시를 범죄화하는 반면, DEFIANCE는 피해자들을 위한 민사 소송권을 만들 것입니다. TAKE IT DOWN과 달리 DEFIANCE는 민주주의 및 기술 센터와 같은 언론 자유 옹호자들의 지지를 받고 있습니다.

10월 29, 2025

[작성자:] haeyeop

1. MCP와 NLWeb — 차세대 웹 표준 구상

2. 기술·비즈니스 과제

3. AI 채택과 제품화 현황

4. 창작물·저작권 논쟁에 대한 입장