[카테고리:] Statistics

심리학 저널에서 p-value를 금지하다
심리학 저널 중 하나인 Basic and Applied Social Psychology에서 앞으로 영가설을 통한 유의성 검증을 퇴출시키겠다는 사설을 실었다. 그리고 이와 관련된 기사가 nature에도 실렸다 (Psychology journal bans P values). 사실 나도 제대로 알면서 사용한 것도 아니었지만 최근에 이 문제에 대해 알게되고 관심을 가져왔다.

최근 통계의 역사와 관련된 서적들을 살펴보면서 교과서에서 배우는 기계적인 가설검정방식이 과연 어떤 의미를 가지는지에 대해서 생각해보게 되었다. 과연 가설검정을 통해 나온 결과는 어떻게 해석되어야 하는지, 실제로 어떤 효과를 가지는지에 대해서 생각해보았을 때 선뜻 답을 하기 힘든 문제이다.

우선 영가설을 통한 가설검정방식이 어떤 문제를 가지는지에 대해서는 정리된 국내논문 한 편을 찾았다 (Review on Problem with Null Hypothesis Significance Testing in Dental Research and Its Alternatives). 가설검정방식의 문제에 대해서는 주로 의학분야에서 많이 찾아볼 수 있다. 만약 새로운 신약의 효과를 검증하려고 할 때 유의확률을 어떻게 볼 것인지 일반적인 사회과학에서의 연구와 다르다고 생각한다. 위 논문에서 시작부분에 인용하고 있는 사례이다.

2011년 3월, 미국 대법원은 오랜 심의 끝에 임상시험의 결과가 통계적으로 유의(significant)하지 않더라도 여전히 중요(important)할 수 있다고 판결하였다. 제약회사 Matrixx Initiatives는 처방전 없이 살 수 있는 약인 Zicam이 후각상실을 일으키는 부작용이 있지만 그 발생빈도가 통계적 유의수준에 미치지 않았기 때문에 이 부작용을 알릴 이유가 없었다고 주장하였으나 대법원은 그 주장을 기각하였다. ‘Matrixx Initiatives사 대 Siracusano’로 알려진 이 사건은 통계학자들 의 논평과 함께 언론에 보도되었다.

통계값을 표기하는 방법과 검정방식이 기계적으로 쓰이고 오용되고 있는데서 발생하는 문제들이 많다. 우선은 통계값을 표기할 때 사람들이 어떻게 이해하는가? 이에 대해 기거렌처의 책[1]에서 쓴 사례가 있다.

이 여성들 가운데 유방암이 있을 확률은 0.8%다. 만일 어떤 여성이 유방암에 걸렸을 경우 유방촬영술 양성이 나올 확률은 90%다. 만일 어떤 여성이 유방암에 걸리지 않았더라도 유방촬영술 양성이 나올 확률은 7%다. 이제 한 여성이 유방촬영술 양성이 나왔다고 가정하자. 실제로 유방암에 걸렸을 확률은 얼마인가?

과연 이 문장을 보고 확률적 추론을 할 수 있는 사람이 얼마나 될까. 다음의 글을 보면 조금 더 쉽게 이해할 수 있다.

1000명 중 8명의 여성이 유방암에 걸린다. 이 8명 중 7명은 유방촬영술 양성이 나올 것이다. 유방암에 걸리지 않은 992명의 여성 중 70명에서도 유방촬영술 양성이 나올것이다. 이제 검진 결과 유방촬영술 양성이 나온 여성만 고려해보자. 이중, 실제로 얼마나 많은 여성이 유방암에 걸렸는가?

표기방식의 변화만으로도 수치등에 대한 이해가 훨씬 쉬워진다. 이번 Basic and Applied Social Psychology 사설에서도 논문 상 p-value를 표기해도 되지만 모두 지우고 출판될 것이며, 되도록이면 많은 샘플을 이용하고 기술통계량 외에 effect size에 대한 부분이 포함되어야 함을 말하고 있다.

개인적으로 내가 있는 분야는 시스템의 개선부분이 있다면 적용이 어렵지 않고 잘못된 이용으로 인한 부작용도 크지 않기에 통계가 가지는 의미에 대해 깊이 고려하지 않는게 아닐까 하는 생각이 든다. 하지만 내가 하고 있는 연구들이 실제로 어떤 의미를 가지는지 고민한다면 이런 문제에 관심을 가질 필요가 있을것이라고 본다.
1. 숫자에 속아 위험한 선택을 하는 사람들 ↩
10월 29, 2025
왜 p-value 사용을 금지하는가?
Basic and Applied Social Psychology에서 p-value 사용을 금지한 것과 관련해 r-bloggers에 왜 p-value 사용을 금지하는지에 대한 글이 실렸다. 이 글에서는 샘플링의 문제로 영가설을 거부하는 결과가 나올 수 있다는 사실을 간단한 시뮬레이션을 통해 보여주고 있다. 그런데 댓글에서도 볼 수 있듯이 효과크기에 대한 이야기들이 많이 빠져 있다. 그래서 효과 크기와 관련된 논문을 찾다가 Using Effect Size—or Why the P Value Is Not Enough라는 논문을 찾아서 읽어봤다.

효과 크기는 양적 연구의 주요한 결과물이다. p-value는 독자들에게 효과가 존재하는지 아닌지를 알려주는 반면, 효과의 크기를 나타내지는 못한다. 연구결과를 보고하고 해석하는데 있어서, 실질적인 중요성 (효과크기)와 통계적인 중요성 (p-value) 모두 보고되어야 하는 필수적인 결과다.
The effect size is the main finding of a quantitative study. While a P value can inform the reader whether an effect exists, the P value will not reveal the size of the effect. In reporting and interpreting studies, both the substantive significance (effect size) and statistical significance (P value) are essential results to be reported.

왜 p-value만으로는 충분하지 않은지에 대해 심근경색과 아스피린에 관한 사례를 이야기하고 있다. 22,000명 이상의 피실험자를 대상으로 한 실험 결과에서 아스피린이 심근경색을 줄일 수 있다는 결과는 매우 높은 유의성 (p < .00001)으로 검증이 되었다. 너무 확실한 결과로 인해 연구는 조기 종료되었는데 효과 크기는 매우 작았다 (나도 도움이 된다고 알고 있었는데, 이 논문을 보고 알게 되었다) .

이 외에도 유방암 조기 검사와 관련된 사례도 있다. 여성들이 조기에 유방암 검사를 하게 됨으로써 얻게 되는 이익은 무엇이고 안게 되는 위험은 무엇인가? 실질적으로 얼마나 유방암을 예방할 수 있을지에 대해서는 큰 효과가 없다는 사례도 보았다.

왜 p-value보다 효과 크기에 더 집중해야 하는지는 샘플 사이즈가 증가하면서 생긴 변화라는 생각이 든다. 2013년도 Information Systems Research에 나온 Too Big to Fail: Large Samples and the p-Value Problem라는 논문에서도 이런 사례에 대해서 이야기하고 있다. 예전보다 많은 수의 샘플을 가지고 하는 연구들이 용이해졌고 그렇기 때문에 더욱 효과 크기에 집중해야 하는게 아닌가 싶다.

하지만 연구를 하다보면 항상 새로운 연구 결과를 요구하고 참신하고 기존과는 다른 것만을 요구하기 때문에 이런 식으로 된 건 아닐까 싶다. 꼭 저널에 실리지 않더라도 연구가 복제되고 심지어 유의하지 않거나 논쟁이 될 수 있는 결과까지 출판[1]할 수 있다면 연구한다는게 훨씬 더 나은 의미를 가질 수 있지 않을까 생각한다.
1. 엘스비어 출판사에서 New Negatives in Plant Science라는 저널을 만들었다. 이와 관련해서 왜 과학은 부정적인 결과를 출판할 필요가 있는지에 대한 간단한 사설을 실었다. ↩
10월 29, 2025
p-value 금지는 과학을 위한 큰 도약

저널을 위해서는 작은 전진이지만 과학을 위해서는 큰 도약이라는 p-value 금지와 관련된 기사가 있어 옮겨놓는다 (P value ban: small step for a journal, giant leap for science).

“이 방법이 이루어 낸 탁월한 것에서도 불구하고 … 이성적 추론의 본성에 대한 근본적 오해에 기반하고 있고, 비록 과학적 연구에 적절한 부분이 있다 해도 극히 드물다” 과학철학자 William Rozeboom은 1960년대에 말했다. 이후 그는 이것을 “지금까지 제도화 된 학생들의 암기식 교육중에서 확실하게 가장 멍청했던 잘못 판단한 절차”라고 말했다.

“Despite the awesome pre-eminence this method has attained … it is based upon a fundamental misunderstanding of the nature of rational inference, and is seldom if ever appropriate to the aims of scientific research,” the philosopher of science William Rozeboom wrote — in 1960. Later he called it “surely the most bone-headedly misguided procedure ever institutionalized in the rote training of science students.”

이러한 문제와 관련되어 언급되었던 p-value hacking이나 동일한 결과가 재현이 되지 않는 것에 대한 지적들도 언급하고 있다. 그리고 재미있는 사실도 마지막에 이야기하고 있는데 유명한 과학저널 (어디인지는 모르지만) 이와 관련된 설명에서 다음과 같이 언급했다고 한다.

“the closer to zero the P value gets, the greater the chance that the null hypothesis is false.”

어찌보면 통계란 이해하기 어려운 표현방식이다. 없애는 것이 커뮤니케이션을 위해 훨씬 좋은 방안일지도 모른다.

10월 29, 2025
왜 Stata를 사용해야 하는가?

여러가지 통계 패키지 중에서 왜 Stata를 쓰는지에 대한 글 (Why Use Stata?)을 보았다. 어떤 분도 비슷한 이야기를 했던게 생각난다. 내가 SPSS를 사용한다고 했더니 당장 가져다 버리고 Stata를 쓰라고 이야기했었다. 그리고 그 분이 말했던 장점이 여기에서 말하는 장점과 유사하다.

Eviews, SAS, SPSS, R, Stata 정도의 선택에서 Eviews는 너무 특화되어 있고 SAS는 너무 비싸서 제외된다. R은 명령어를 자꾸 까먹어서 쓰기 어렵고 SPSS는 장사질 때문에 못 쓰겠다는 이야기다. 반면 Stata는 커멘드와 메뉴얼 두 가지 모두 사용이 가능하며 메뉴얼이 잘 되어 있어서 까먹어도 쉽게 찾아볼 수 있다는 점을 말한다.

개인적으로도 비슷하게 느끼는데 가끔 가벼운 통계를 돌리기에는 SPSS가 편하다. 하지만 데이터가 1000개 정도만 넘어가도 금방 얼어버리는 경향이 있고 학교 라이센스가 없이 유료로 쓰기에는 솔직히 아깝다. SAS는 다 되는 건 알겠는데 너무 무겁고 비싸다. R은 공짜라서 좋기는 한데 명령어를 자꾸 까먹어서 매번 다시 검색해야 하는 상황이 불편하다. 데이터 다루기가 편한 면도 있지만 불편한 측면도 있다. 개인적으로도 Stata가 좋고 편한 건 알겠는데 통계를 매일같이 돌리는 입장은 아니어서 딱히 개인적으로 구매할 생각까지는 들지 않는다. 장기적으로는 좀 불편해도 R에 익숙해지는게 가장 좋은 선택은 아닌가 싶다.

10월 29, 2025
데이터 분석에 많이 쓰이는 소프트웨어

세미나를 하다가 얼마전에 본 글이 생각나서 적어놓는다. R-bloggers에 올라왔던 Fastest Growing Software for Scholarly Analytics라는 글에서 분석에 사용되는 소프트웨어들의 트랜드를 시각화 해 놓은 자료가 있다. 2013년과 2014년을 기준으로 한 결과를 살펴보면 가장 인기 있는 소프트웨어는 Python, R, KNIME이고 가장 큰 하락세를 보이는 것은 SPSS와 SAS이다.

10월 29, 2025
통계학의 역사
통계는 고등학교 정석에도 당연히 포함되어 있으니 수능 공부를 경험한 사람 치고 모르는 사람은 없겠지만 수능에서 비중이 얼마 크지 않아 포기하는 부분이기도 하다(적어도 나때는 그랬다). 많은 친구들이 봐야 할 분량은 많은데 비해 나오는 문제는 한 문제 정도였던 통계를 포기했다. 나는 포기하지는 않았던 것 같은데 열심히 보지는 않아서 그런지 전혀 기억이 나지 않았다.

대학교 가서도 통계를 공부해야겠다는 생각은 전혀 가지지 않았다. 기껏해야 필수 과목으로 포함되어 있는 조사방법론 수업을 하나 들었을 뿐이었다. 그것도 어렵다는 소문이 자자해서 많은 친구들이 계절학기로 짧게 수강하는걸 권했다. 덕분에 나도 계절학기로 수업을 듣기는 했다.

이상하게 수업을 들으면서도 거의 이해를 하지 못해서 그냥 적당히 공식을 외웠던 것 같은 기억이 난다. 그럼에도 A+를 받았다는 사실이 신기하기는 하지만 말이다. 대학원에 가서도 어쩐지 통계란 전혀 이해할 수 없는 것처럼 느껴졌는데 석사 때 통계를 잘 가르치지 않는 편이기도 했고 듣는 수업 대부분이 통계를 다룬 논문은 보지를 않았기 때문이기도 했다.

완전히 무지했던 걸 생각하면 지금은 기초적인 통계는 아는 편이라고 생각하지만 개념적으로 여전히 잘 이해되지 않는 부분들이 있다. 그래서 통계학의 역사와 관련된 책들을 몇 권 읽어보기로 했다. 우선 통계학의 피카소는 누구일까?를 먼저 보려고 했으나 현재 절판된 상태이다. 익숙한 기본적인 개념들에 대한 내용들을 접할 수 있는 것 같다. 조금 두꺼워서 부담스럽지만 통계학의 역사라는 책도 괜찮은 것 같다. 부담스럽다면 역자가 쓴 서문만 읽어보다고 개략적인 흐름을 파악하는데 도움이 된다.

통계사는 아니라 통계일반과 관련된 책으로 숫자에 속아 위험한 선택을 하는 사람들이라는 책도 있다. 상당히 재미있을 것 같은데 아직까지 구입하고 읽지 못했다.

통계에 관련된 책을 읽을 때마다 많이 부족하다는 생각이 든다. 기본적으로 내가 공부했던 환경이 수학적인 측정과 표현에 대해 거부감을 드러내는 사람들이 많았기 때문이기도 한 것 같다. John Arbuthnot¹은 다음과 같이 말했다고 한다.

우리가 알고 있는 것들 가운데 수학적 추론으로 환원될 수 없는 것은 거의 없다. 만약 그러한 것이 있다면 이는 그에 대해 우리가 지극히 적고 혼란스럽게 알고 있다는 표시일 뿐이다. – 통계학의 역사 역자 서문에서

인문학이 아닌 사회과학을 공부한다는 입장에서 조금 더 빨리 공부하지 못했다는 사실이 여전히 아쉽다.
1. 스코틀랜드의 수학자, 의사, 문필가, 왕립협회 회원이었으며 앤 여왕의 주치의. ↩
10월 29, 2025

[카테고리:] Statistics

심리학 저널에서 p-value를 금지하다

왜 p-value 사용을 금지하는가?

p-value 금지는 과학을 위한 큰 도약

왜 Stata를 사용해야 하는가?

데이터 분석에 많이 쓰이는 소프트웨어

통계학의 역사