CoT 해석가능성 분석

Chain-of-Thought Is Not Explainability

추론 모델이 결론에 도달하는 방식을 보여주기 위해 생성하는 ‘생각의 사슬’은 실제로는 실제 상황을 처리하는 방식이 아닐 수도 있다는 연구

Chain-of-thought(CoT)는 언어모델이 최종 답변을 생성하기 전에 여러 단계의 추론 과정을 언어적으로 서술하도록 하는 기법이다. 이는 과제 수행 성능을 종종 향상시키고 모델의 추론을 투명하게 보여주는 듯한 인상을 주지만, 우리는 CoT가 실제로는 오해를 불러일으킬 수 있으며 신뢰할 수 있는 해석가능성의 필요조건도 충분조건도 아니라고 주장한다. 우리는 CoT의 충실성을, 인간이 이해할 수 있을 뿐 아니라 모델의 내부적 추론을 실제로 반영하여 책임 있는 활용을 뒷받침하는지를 기준으로 검토하며, 기존 연구의 증거를 종합한다. 분석 결과, 언어로 표현된 추론 과정은 실제 모델 내부에서 결정을 이끄는 계산과 자주 불일치하며, 모델이 결론에 이르는 방식을 잘못 보여주는 경우가 많다. 그럼에도 불구하고 의료, 법률, 자율 시스템과 같은 고위험 분야에서 CoT 의존은 증가하고 있으며, 우리가 검토한 최근 CoT 중심 연구 1,000편 중 약 25%는 CoT를 해석가능성 기법으로 명시적으로 활용하고 있다. 이에 기반해 세 가지 제안을 제시한다. (i) 추가 검증 없이 CoT를 해석가능성의 충분조건으로 간주하는 것을 피하되, CoT가 제공하는 의사소통상의 이점은 계속 활용할 것, (ii) 다운스트림 의사결정을 위해 CoT 충실성을 평가하는 엄격한 방법을 도입할 것, (iii) 모델 내부에 근거한 설명을 확보하기 위해 activation patching, 반사실적 개입, verifier 모델 등 인과적 검증 기법을 개발할 것.