왜 p-value 사용을 금지하는가?

Basic and Applied Social Psychology에서 p-value 사용을 금지한 것과 관련해 r-bloggers에 왜 p-value 사용을 금지하는지에 대한 글이 실렸다. 이 글에서는 샘플링의 문제로 영가설을 거부하는 결과가 나올 수 있다는 사실을 간단한 시뮬레이션을 통해 보여주고 있다. 그런데 댓글에서도 볼 수 있듯이 효과크기에 대한 이야기들이 많이 빠져 있다. 그래서 효과 크기와 관련된 논문을 찾다가 Using Effect Size—or Why the P Value Is Not Enough라는 논문을 찾아서 읽어봤다.

효과 크기는 양적 연구의 주요한 결과물이다. p-value는 독자들에게 효과가 존재하는지 아닌지를 알려주는 반면, 효과의 크기를 나타내지는 못한다. 연구결과를 보고하고 해석하는데 있어서, 실질적인 중요성 (효과크기)와 통계적인 중요성 (p-value) 모두 보고되어야 하는 필수적인 결과다.
The effect size is the main finding of a quantitative study. While a P value can inform the reader whether an effect exists, the P value will not reveal the size of the effect. In reporting and interpreting studies, both the substantive significance (effect size) and statistical significance (P value) are essential results to be reported.

왜 p-value만으로는 충분하지 않은지에 대해 심근경색과 아스피린에 관한 사례를 이야기하고 있다. 22,000명 이상의 피실험자를 대상으로 한 실험 결과에서 아스피린이 심근경색을 줄일 수 있다는 결과는 매우 높은 유의성 (p < .00001)으로 검증이 되었다. 너무 확실한 결과로 인해 연구는 조기 종료되었는데 효과 크기는 매우 작았다 (나도 도움이 된다고 알고 있었는데, 이 논문을 보고 알게 되었다) .

이 외에도 유방암 조기 검사와 관련된 사례도 있다. 여성들이 조기에 유방암 검사를 하게 됨으로써 얻게 되는 이익은 무엇이고 안게 되는 위험은 무엇인가? 실질적으로 얼마나 유방암을 예방할 수 있을지에 대해서는 큰 효과가 없다는 사례도 보았다.

왜 p-value보다 효과 크기에 더 집중해야 하는지는 샘플 사이즈가 증가하면서 생긴 변화라는 생각이 든다. 2013년도 Information Systems Research에 나온 Too Big to Fail: Large Samples and the p-Value Problem라는 논문에서도 이런 사례에 대해서 이야기하고 있다. 예전보다 많은 수의 샘플을 가지고 하는 연구들이 용이해졌고 그렇기 때문에 더욱 효과 크기에 집중해야 하는게 아닌가 싶다.

하지만 연구를 하다보면 항상 새로운 연구 결과를 요구하고 참신하고 기존과는 다른 것만을 요구하기 때문에 이런 식으로 된 건 아닐까 싶다. 꼭 저널에 실리지 않더라도 연구가 복제되고 심지어 유의하지 않거나 논쟁이 될 수 있는 결과까지 출판[1]할 수 있다면 연구한다는게 훨씬 더 나은 의미를 가질 수 있지 않을까 생각한다.

엘스비어 출판사에서 New Negatives in Plant Science라는 저널을 만들었다. 이와 관련해서 왜 과학은 부정적인 결과를 출판할 필요가 있는지에 대한 간단한 사설을 실었다. ↩