심리학 저널에서 p-value를 금지하다

심리학 저널 중 하나인 Basic and Applied Social Psychology에서 앞으로 영가설을 통한 유의성 검증을 퇴출시키겠다는 사설을 실었다. 그리고 이와 관련된 기사가 nature에도 실렸다 (Psychology journal bans P values). 사실 나도 제대로 알면서 사용한 것도 아니었지만 최근에 이 문제에 대해 알게되고 관심을 가져왔다.

최근 통계의 역사와 관련된 서적들을 살펴보면서 교과서에서 배우는 기계적인 가설검정방식이 과연 어떤 의미를 가지는지에 대해서 생각해보게 되었다. 과연 가설검정을 통해 나온 결과는 어떻게 해석되어야 하는지, 실제로 어떤 효과를 가지는지에 대해서 생각해보았을 때 선뜻 답을 하기 힘든 문제이다.

우선 영가설을 통한 가설검정방식이 어떤 문제를 가지는지에 대해서는 정리된 국내논문 한 편을 찾았다 (Review on Problem with Null Hypothesis Significance Testing in Dental Research and Its Alternatives). 가설검정방식의 문제에 대해서는 주로 의학분야에서 많이 찾아볼 수 있다. 만약 새로운 신약의 효과를 검증하려고 할 때 유의확률을 어떻게 볼 것인지 일반적인 사회과학에서의 연구와 다르다고 생각한다. 위 논문에서 시작부분에 인용하고 있는 사례이다.

2011년 3월, 미국 대법원은 오랜 심의 끝에 임상시험의 결과가 통계적으로 유의(significant)하지 않더라도 여전히 중요(important)할 수 있다고 판결하였다. 제약회사 Matrixx Initiatives는 처방전 없이 살 수 있는 약인 Zicam이 후각상실을 일으키는 부작용이 있지만 그 발생빈도가 통계적 유의수준에 미치지 않았기 때문에 이 부작용을 알릴 이유가 없었다고 주장하였으나 대법원은 그 주장을 기각하였다. ‘Matrixx Initiatives사 대 Siracusano’로 알려진 이 사건은 통계학자들 의 논평과 함께 언론에 보도되었다.

통계값을 표기하는 방법과 검정방식이 기계적으로 쓰이고 오용되고 있는데서 발생하는 문제들이 많다. 우선은 통계값을 표기할 때 사람들이 어떻게 이해하는가? 이에 대해 기거렌처의 책[1]에서 쓴 사례가 있다.

이 여성들 가운데 유방암이 있을 확률은 0.8%다. 만일 어떤 여성이 유방암에 걸렸을 경우 유방촬영술 양성이 나올 확률은 90%다. 만일 어떤 여성이 유방암에 걸리지 않았더라도 유방촬영술 양성이 나올 확률은 7%다. 이제 한 여성이 유방촬영술 양성이 나왔다고 가정하자. 실제로 유방암에 걸렸을 확률은 얼마인가?

과연 이 문장을 보고 확률적 추론을 할 수 있는 사람이 얼마나 될까. 다음의 글을 보면 조금 더 쉽게 이해할 수 있다.

1000명 중 8명의 여성이 유방암에 걸린다. 이 8명 중 7명은 유방촬영술 양성이 나올 것이다. 유방암에 걸리지 않은 992명의 여성 중 70명에서도 유방촬영술 양성이 나올것이다. 이제 검진 결과 유방촬영술 양성이 나온 여성만 고려해보자. 이중, 실제로 얼마나 많은 여성이 유방암에 걸렸는가?

표기방식의 변화만으로도 수치등에 대한 이해가 훨씬 쉬워진다. 이번 Basic and Applied Social Psychology 사설에서도 논문 상 p-value를 표기해도 되지만 모두 지우고 출판될 것이며, 되도록이면 많은 샘플을 이용하고 기술통계량 외에 effect size에 대한 부분이 포함되어야 함을 말하고 있다.

개인적으로 내가 있는 분야는 시스템의 개선부분이 있다면 적용이 어렵지 않고 잘못된 이용으로 인한 부작용도 크지 않기에 통계가 가지는 의미에 대해 깊이 고려하지 않는게 아닐까 하는 생각이 든다. 하지만 내가 하고 있는 연구들이 실제로 어떤 의미를 가지는지 고민한다면 이런 문제에 관심을 가질 필요가 있을것이라고 본다.

숫자에 속아 위험한 선택을 하는 사람들 ↩