연구는 추론하는 AI 모델들이 실제로는 진짜 추론을 하는 게 아닐 수 있다는 중요한 의문을 제기. 겉보기에는 복잡한 사고 과정을 보여주지만, 실제로는 패턴 매칭이나 기억된 해법을 재조합하는 수준일 가능성을 시사함.
최근 최첨단 언어 모델들은 답변을 제공하기 전에 상세한 사고 과정을 생성하는 대형 추론 모델(LRM)을 도입했습니다. 이러한 모델들이 추론 벤치마크에서 향상된 성능을 보여주고 있지만, 그들의 근본적인 능력, 확장 특성, 그리고 한계는 여전히 충분히 이해되지 않고 있습니다. 현재의 평가는 주로 기존의 수학 및 코딩 벤치마크에 초점을 맞추고 있으며, 최종 답안의 정확성을 강조합니다. 그러나 이러한 평가 패러다임은 종종 데이터 오염 문제를 겪고 있으며, 추론 과정의 구조와 품질에 대한 통찰을 제공하지 못합니다. 본 연구에서는 일관된 논리적 구조를 유지하면서 구성적 복잡성을 정밀하게 조작할 수 있는 제어 가능한 퍼즐 환경을 활용하여 이러한 격차를 체계적으로 조사합니다. 이러한 설정은 최종 답안뿐만 아니라 내부 추론 과정의 분석을 가능하게 하여, LRM이 어떻게 “생각”하는지에 대한 통찰을 제공합니다. 다양한 퍼즐에 대한 광범위한 실험을 통해, 우리는 최첨단 LRM들이 특정 복잡도를 넘어서면 완전한 정확도 붕괴에 직면한다는 것을 보여줍니다. 더욱이, 이들은 직관에 반하는 확장 한계를 보입니다: 추론 노력이 문제 복잡도와 함께 어느 지점까지 증가하다가, 충분한 토큰 예산이 있음에도 불구하고 그 이후에는 감소합니다. 동등한 추론 계산 하에서 LRM을 표준 LLM 대응 모델과 비교함으로써, 우리는 세 가지 성능 영역을 식별했습니다: (1) 표준 모델이 놀랍게도 LRM을 능가하는 낮은 복잡도 작업, (2) LRM의 추가적인 사고가 이점을 보여주는 중간 복잡도 작업, (3) 두 모델 모두 완전한 붕괴를 경험하는 높은 복잡도 작업. 우리는 LRM이 정확한 계산에서 한계를 가지고 있음을 발견했습니다: 이들은 명시적인 알고리즘을 사용하지 못하고 퍼즐 전반에 걸쳐 일관성 없이 추론합니다. 또한 추론 과정을 더 깊이 조사하여, 탐색된 해결책의 패턴을 연구하고 모델의 계산 행동을 분석함으로써, 그들의 강점과 한계를 밝히고 궁극적으로 그들의 진정한 추론 능력에 대한 중요한 질문을 제기합니다.
