[카테고리:] Statistics

  • 통계학의 역사

    통계는 고등학교 정석에도 당연히 포함되어 있으니 수능 공부를 경험한 사람 치고 모르는 사람은 없겠지만 수능에서 비중이 얼마 크지 않아 포기하는 부분이기도 하다(적어도 나때는 그랬다). 많은 친구들이 봐야 할 분량은 많은데 비해 나오는 문제는 한 문제 정도였던 통계를 포기했다. 나는 포기하지는 않았던 것 같은데 열심히 보지는 않아서 그런지 전혀 기억이 나지 않았다.

    대학교 가서도 통계를 공부해야겠다는 생각은 전혀 가지지 않았다. 기껏해야 필수 과목으로 포함되어 있는 조사방법론 수업을 하나 들었을 뿐이었다. 그것도 어렵다는 소문이 자자해서 많은 친구들이 계절학기로 짧게 수강하는걸 권했다. 덕분에 나도 계절학기로 수업을 듣기는 했다.

    이상하게 수업을 들으면서도 거의 이해를 하지 못해서 그냥 적당히 공식을 외웠던 것 같은 기억이 난다. 그럼에도 A+를 받았다는 사실이 신기하기는 하지만 말이다. 대학원에 가서도 어쩐지 통계란 전혀 이해할 수 없는 것처럼 느껴졌는데 석사 때 통계를 잘 가르치지 않는 편이기도 했고 듣는 수업 대부분이 통계를 다룬 논문은 보지를 않았기 때문이기도 했다.

    완전히 무지했던 걸 생각하면 지금은 기초적인 통계는 아는 편이라고 생각하지만 개념적으로 여전히 잘 이해되지 않는 부분들이 있다. 그래서 통계학의 역사와 관련된 책들을 몇 권 읽어보기로 했다. 우선 통계학의 피카소는 누구일까?를 먼저 보려고 했으나 현재 절판된 상태이다. 익숙한 기본적인 개념들에 대한 내용들을 접할 수 있는 것 같다. 조금 두꺼워서 부담스럽지만 통계학의 역사라는 책도 괜찮은 것 같다. 부담스럽다면 역자가 쓴 서문만 읽어보다고 개략적인 흐름을 파악하는데 도움이 된다.

    통계사는 아니라 통계일반과 관련된 책으로 숫자에 속아 위험한 선택을 하는 사람들이라는 책도 있다. 상당히 재미있을 것 같은데 아직까지 구입하고 읽지 못했다.

    통계에 관련된 책을 읽을 때마다 많이 부족하다는 생각이 든다. 기본적으로 내가 공부했던 환경이 수학적인 측정과 표현에 대해 거부감을 드러내는 사람들이 많았기 때문이기도 한 것 같다. John Arbuthnot1은 다음과 같이 말했다고 한다.

    우리가 알고 있는 것들 가운데 수학적 추론으로 환원될 수 없는 것은 거의 없다. 만약 그러한 것이 있다면 이는 그에 대해 우리가 지극히 적고 혼란스럽게 알고 있다는 표시일 뿐이다. – 통계학의 역사 역자 서문에서

    인문학이 아닌 사회과학을 공부한다는 입장에서 조금 더 빨리 공부하지 못했다는 사실이 여전히 아쉽다.


    1. 스코틀랜드의 수학자, 의사, 문필가, 왕립협회 회원이었으며 앤 여왕의 주치의. 

  • p-value의 유의성

    지금 읽고 있는 책에서 통계에서 사용되는 p value가 유의적이라고 할 때의 의미에 대해 언급한 부분이 있다. 피셔는 유의성 검정을 잘못 사용하는 사람들에 대해 다음과 같이 비판했다고 한다.

    유의성 검정은 우리가 연구하거나 찾고자 하는 원인이 아니라 우리가 통제할 수 없는 여러 환경적 요인들에 의해 우연히 일어난 것에 현혹되지 않게 도와준다 …… 20번에 한 번 정도 우연히 일어나는 결과를 유의적이라고 하는 것이 통상적인 관례다. 그렇다고 실험을 20번 할 때마다 한 번은 현혹 당하겠다는 것을 의미하지는 않는다. 유의성 검정은 어떤 것을 무시할 것인가를 알려준다. 말하자면 유의적인 결과가 나오지 않은 실험은 무시해도 좋다는 것이다. 연구자는 유의적인 결과가 나오도록 실험을 설계할 수 있을 때만 자기가 보여주고자 하는 것을 실험으로 보여주었다고 주장할 수 있다. 따라서 유의적인 결과라 하더라도 같은 결과가 다시 나오도록 할 수 없다면 이 결과는 더 연구해야 하는 미결 상태인 것이다.

    유의성 검정에 대한 이야기를 읽고 나니 이론에 대한 몇 가지 이야기들에 대해 다시 생각해보게 되었다.

    The point of theorizing, when viewed as a cognitive process, is not simply to produce validated knowledge, but, rather, to suggest plausible connections and relationships that have not yet been glimpsed.1

    비슷한 이야기로 Karl Weicek도 좋은 이론이란 그럴법한 이론이라는 말을 한다.

    A good theory is a plausible theory, and a theory is judged to be more plausible and of higher quality if it is interesting rather than obvious, irrelevant or absurd, obvious in novel ways, a source of unexpected connections, high in narrative rationality, aesthetically pleasing, or correspondent with presumed realities.2

    결국에는 타당한 것 같은, 이치에 맞는, 그럴듯한 이야기를 하는 것이 가장 기본이라는 생각이 든다.


    1. Van Maanen, J., Sørensen, J. B., & Mitchell, T. R. (2007). The interplay between theory and method. Academy of management review, 32(4), 1145-1154. 

    2. Weick, K. E. (1989). Theory construction as disciplined imagination. Academy of management review, 14(4), 516-531. 

  • 통제와 현실성

    통제와 관련해서 스텔라 컨리프의 이야기들이 있다. 그녀가 기네스 맥주 공장에서 근무할 때 사례이다.

    누구나 특정 숫자나 글자 그리고 색깔에 대한 편견을 가지고 있고, 어느 정도는 미신적인 것을 믿습니다. 맥주의 최적 보관온도를 결정하는 실험에서 실험 대상자는 온도가 다른 방에서 온도가 다른 맥주를 마셔야 했습니다. 맥주의 온도를 구별할 수 있도록 온도에 따라 다른 색깔의 병마개로 봉인하였습니다. 하지만 이 실험에서 얻은 결과는 실험대상자들이 맥주의 맛보다는 병마개 색깔에 더 영향을 받는다는 것이었습니다. 실험대상자들은 노란색 병마개를 싫어했습니다.

    사실은 기초적인 이야기이고 당연하다고 생각하겠지만 숫자에만 빠져서 통제가 제대로 이루어지는지 고려하지 않는 경우가 많다. 점점 복잡하고 어려운 통계들을 사용하지만 오히려 기본적인 것을 지키는게 중요한 것 아닌지 생각해보게 된다. 수치를 보고 왜 그렇게 나왔는지 생각해보아야 한다.

    남자 제소자의 선고형량과 석방 후 2년 내 재범률을 분석한 연구는 명백히 선고형량이 적을수록 재범률이 높다는 것을 보여주었다. 하지만 원자료를 자세히 조사한 결과 형량이 3개월이 안 되는 제소자들에게서 연관성이 강하게 나타난다는 것을 알아냈다 … 무거운 형량이 재범률을 낮추는 효과가 있다는 증거는 형량이 10년 이상의 장기 재소자들의 재범률이 15퍼센트 이하라는 것이었다. 이 결과에는 연령이라는 중요한 요인이 관련되어 있는데 사기나 위조범죄를 저지른 사람들은 주로 무거운 형을 받는데, 그들이 출소할 즈음엔 나이가 들어 또 다른 범죄를 저지르기 어렵다.

  • 구글 검색 데이터의 장점과 유의할 점

    뉴욕 타임즈에 Searching for Sex라는 기사가 올라왔다. 기사를 쓴 Seth Stephens-Davidowitz는 사회적으로 민감한 질문에서는 사람들이 거짓말을 하기 때문에 신뢰할만한 데이터를 얻기 어렵지만, 구글 검색결과는 새로운 인사이트를 준다고 말한다. 그래서 사회적으로 민감한 성과 관련된 이야기들을 구글 검색결과 데이터를 통해 다루고 있다. 하지만 댄 에리얼리는 성적인것과 관련된 데이터를 해석하는데 있어서 주의가 필요하다는 이야기를 한다.

    대부분의 데이터에서 성적인 생각들은 과소추정되는 경향이 있는 반면, 구글에서는 과대추정되는 경향이 있다.

    While most data sources underestimate sexual thoughts, he suspects that Google may overestimate them.

    또한 구글 데이터를 바탕으로 연구할 때 고려해야할 점들을 이야기한다.

    구글은 사람들이 모르거나 추가적인 정보가 필요한 것의 반영이다.

    Google is a reflection of what people don’t know and need extra information about

    그리고 빅데이터라고 하기에 너무도 적은 데이터라는 사실도 언급하고 있다.

    빅 데이터와 관련해서 놀라운 사실은 종종 그것이 매우 적은 수라는 점이다. 많은 사람들은 주어진 구글 검색결과가 수많은 검색결과로 만들어졌을 것을 기대한다. (본문에 포함된) 검색결과를 보고 당신은 생각했을지도 모른다. “저게 다야?”

    Another surprising thing about “big data” is how small it often is. Many people expect that any given Google search will be made millions of times. You may look at the accompanying graphic that includes the total monthly search volumes for various phrases and think, “That’s it?”

    하지만 사람들이 밝히기 꺼려하는 이야기들을 살펴볼 수 있다는 점에서는 명확한 장점이 있다고 언급하고 있다.

  • 심리학 저널에서 p-value를 금지하다

    심리학 저널 중 하나인 Basic and Applied Social Psychology에서 앞으로 영가설을 통한 유의성 검증을 퇴출시키겠다는 사설을 실었다. 그리고 이와 관련된 기사가 nature에도 실렸다 (Psychology journal bans P values). 사실 나도 제대로 알면서 사용한 것도 아니었지만 최근에 이 문제에 대해 알게되고 관심을 가져왔다.

    최근 통계의 역사와 관련된 서적들을 살펴보면서 교과서에서 배우는 기계적인 가설검정방식이 과연 어떤 의미를 가지는지에 대해서 생각해보게 되었다. 과연 가설검정을 통해 나온 결과는 어떻게 해석되어야 하는지, 실제로 어떤 효과를 가지는지에 대해서 생각해보았을 때 선뜻 답을 하기 힘든 문제이다.

    우선 영가설을 통한 가설검정방식이 어떤 문제를 가지는지에 대해서는 정리된 국내논문 한 편을 찾았다 (Review on Problem with Null Hypothesis Significance Testing in Dental Research and Its Alternatives). 가설검정방식의 문제에 대해서는 주로 의학분야에서 많이 찾아볼 수 있다. 만약 새로운 신약의 효과를 검증하려고 할 때 유의확률을 어떻게 볼 것인지 일반적인 사회과학에서의 연구와 다르다고 생각한다. 위 논문에서 시작부분에 인용하고 있는 사례이다.

    2011년 3월, 미국 대법원은 오랜 심의 끝에 임상시험의 결과가 통계적으로 유의(significant)하지 않더라도 여전히 중요(important)할 수 있다고 판결하였다. 제약회사 Matrixx Initiatives는 처방전 없이 살 수 있는 약인 Zicam이 후각상실을 일으키는 부작용이 있지만 그 발생빈도가 통계적 유의수준에 미치지 않았기 때문에 이 부작용을 알릴 이유가 없었다고 주장하였으나 대법원은 그 주장을 기각하였다. ‘Matrixx Initiatives사 대 Siracusano’로 알려진 이 사건은 통계학자들 의 논평과 함께 언론에 보도되었다.

    통계값을 표기하는 방법과 검정방식이 기계적으로 쓰이고 오용되고 있는데서 발생하는 문제들이 많다. 우선은 통계값을 표기할 때 사람들이 어떻게 이해하는가? 이에 대해 기거렌처의 책[1]에서 쓴 사례가 있다.

    이 여성들 가운데 유방암이 있을 확률은 0.8%다. 만일 어떤 여성이 유방암에 걸렸을 경우 유방촬영술 양성이 나올 확률은 90%다. 만일 어떤 여성이 유방암에 걸리지 않았더라도 유방촬영술 양성이 나올 확률은 7%다. 이제 한 여성이 유방촬영술 양성이 나왔다고 가정하자. 실제로 유방암에 걸렸을 확률은 얼마인가?

    과연 이 문장을 보고 확률적 추론을 할 수 있는 사람이 얼마나 될까. 다음의 글을 보면 조금 더 쉽게 이해할 수 있다.

    1000명 중 8명의 여성이 유방암에 걸린다. 이 8명 중 7명은 유방촬영술 양성이 나올 것이다. 유방암에 걸리지 않은 992명의 여성 중 70명에서도 유방촬영술 양성이 나올것이다. 이제 검진 결과 유방촬영술 양성이 나온 여성만 고려해보자. 이중, 실제로 얼마나 많은 여성이 유방암에 걸렸는가?

    표기방식의 변화만으로도 수치등에 대한 이해가 훨씬 쉬워진다. 이번 Basic and Applied Social Psychology 사설에서도 논문 상 p-value를 표기해도 되지만 모두 지우고 출판될 것이며, 되도록이면 많은 샘플을 이용하고 기술통계량 외에 effect size에 대한 부분이 포함되어야 함을 말하고 있다.

    개인적으로 내가 있는 분야는 시스템의 개선부분이 있다면 적용이 어렵지 않고 잘못된 이용으로 인한 부작용도 크지 않기에 통계가 가지는 의미에 대해 깊이 고려하지 않는게 아닐까 하는 생각이 든다. 하지만 내가 하고 있는 연구들이 실제로 어떤 의미를 가지는지 고민한다면 이런 문제에 관심을 가질 필요가 있을것이라고 본다.


    1. 숫자에 속아 위험한 선택을 하는 사람들  ↩

  • 왜 p-value 사용을 금지하는가?

    Basic and Applied Social Psychology에서 p-value 사용을 금지한 것과 관련해 r-bloggers에 p-value 사용을 금지하는지에 대한 글이 실렸다. 이 글에서는 샘플링의 문제로 영가설을 거부하는 결과가 나올 수 있다는 사실을 간단한 시뮬레이션을 통해 보여주고 있다. 그런데 댓글에서도 볼 수 있듯이 효과크기에 대한 이야기들이 많이 빠져 있다. 그래서 효과 크기와 관련된 논문을 찾다가 Using Effect Size—or Why the P Value Is Not Enough라는 논문을 찾아서 읽어봤다.

    효과 크기는 양적 연구의 주요한 결과물이다. p-value는 독자들에게 효과가 존재하는지 아닌지를 알려주는 반면, 효과의 크기를 나타내지는 못한다. 연구결과를 보고하고 해석하는데 있어서, 실질적인 중요성 (효과크기)와 통계적인 중요성 (p-value) 모두 보고되어야 하는 필수적인 결과다.
    The effect size is the main finding of a quantitative study. While a P value can inform the reader whether an effect exists, the P value will not reveal the size of the effect. In reporting and interpreting studies, both the substantive significance (effect size) and statistical significance (P value) are essential results to be reported.

    p-value만으로는 충분하지 않은지에 대해 심근경색과 아스피린에 관한 사례를 이야기하고 있다. 22,000명 이상의 피실험자를 대상으로 한 실험 결과에서 아스피린이 심근경색을 줄일 수 있다는 결과는 매우 높은 유의성 (p < .00001)으로 검증이 되었다. 너무 확실한 결과로 인해 연구는 조기 종료되었는데 효과 크기는 매우 작았다 (나도 도움이 된다고 알고 있었는데, 이 논문을 보고 알게 되었다) .

    이 외에도 유방암 조기 검사와 관련된 사례도 있다. 여성들이 조기에 유방암 검사를 하게 됨으로써 얻게 되는 이익은 무엇이고 안게 되는 위험은 무엇인가? 실질적으로 얼마나 유방암을 예방할 수 있을지에 대해서는 큰 효과가 없다는 사례도 보았다.

    p-value보다 효과 크기에 더 집중해야 하는지는 샘플 사이즈가 증가하면서 생긴 변화라는 생각이 든다. 2013년도 Information Systems Research에 나온 Too Big to Fail: Large Samples and the p-Value Problem라는 논문에서도 이런 사례에 대해서 이야기하고 있다. 예전보다 많은 수의 샘플을 가지고 하는 연구들이 용이해졌고 그렇기 때문에 더욱 효과 크기에 집중해야 하는게 아닌가 싶다.

    하지만 연구를 하다보면 항상 새로운 연구 결과를 요구하고 참신하고 기존과는 다른 것만을 요구하기 때문에 이런 식으로 된 건 아닐까 싶다. 꼭 저널에 실리지 않더라도 연구가 복제되고 심지어 유의하지 않거나 논쟁이 될 수 있는 결과까지 출판[1]할 수 있다면 연구한다는게 훨씬 더 나은 의미를 가질 수 있지 않을까 생각한다.


    1. 엘스비어 출판사에서 New Negatives in Plant Science라는 저널을 만들었다. 이와 관련해서 왜 과학은 부정적인 결과를 출판할 필요가 있는지에 대한 간단한 사설을 실었다.  ↩