[카테고리:] Statistics

  • 구글 검색 데이터의 장점과 유의할 점

    뉴욕 타임즈에 Searching for Sex라는 기사가 올라왔다. 기사를 쓴 Seth Stephens-Davidowitz는 사회적으로 민감한 질문에서는 사람들이 거짓말을 하기 때문에 신뢰할만한 데이터를 얻기 어렵지만, 구글 검색결과는 새로운 인사이트를 준다고 말한다. 그래서 사회적으로 민감한 성과 관련된 이야기들을 구글 검색결과 데이터를 통해 다루고 있다. 하지만 댄 에리얼리는 성적인것과 관련된 데이터를 해석하는데 있어서 주의가 필요하다는 이야기를 한다.

    대부분의 데이터에서 성적인 생각들은 과소추정되는 경향이 있는 반면, 구글에서는 과대추정되는 경향이 있다.

    While most data sources underestimate sexual thoughts, he suspects that Google may overestimate them.

    또한 구글 데이터를 바탕으로 연구할 때 고려해야할 점들을 이야기한다.

    구글은 사람들이 모르거나 추가적인 정보가 필요한 것의 반영이다.

    Google is a reflection of what people don’t know and need extra information about

    그리고 빅데이터라고 하기에 너무도 적은 데이터라는 사실도 언급하고 있다.

    빅 데이터와 관련해서 놀라운 사실은 종종 그것이 매우 적은 수라는 점이다. 많은 사람들은 주어진 구글 검색결과가 수많은 검색결과로 만들어졌을 것을 기대한다. (본문에 포함된) 검색결과를 보고 당신은 생각했을지도 모른다. “저게 다야?”

    Another surprising thing about “big data” is how small it often is. Many people expect that any given Google search will be made millions of times. You may look at the accompanying graphic that includes the total monthly search volumes for various phrases and think, “That’s it?”

    하지만 사람들이 밝히기 꺼려하는 이야기들을 살펴볼 수 있다는 점에서는 명확한 장점이 있다고 언급하고 있다.

  • 심리학 저널에서 p-value를 금지하다

    심리학 저널 중 하나인 Basic and Applied Social Psychology에서 앞으로 영가설을 통한 유의성 검증을 퇴출시키겠다는 사설을 실었다. 그리고 이와 관련된 기사가 nature에도 실렸다 (Psychology journal bans P values). 사실 나도 제대로 알면서 사용한 것도 아니었지만 최근에 이 문제에 대해 알게되고 관심을 가져왔다.

    최근 통계의 역사와 관련된 서적들을 살펴보면서 교과서에서 배우는 기계적인 가설검정방식이 과연 어떤 의미를 가지는지에 대해서 생각해보게 되었다. 과연 가설검정을 통해 나온 결과는 어떻게 해석되어야 하는지, 실제로 어떤 효과를 가지는지에 대해서 생각해보았을 때 선뜻 답을 하기 힘든 문제이다.

    우선 영가설을 통한 가설검정방식이 어떤 문제를 가지는지에 대해서는 정리된 국내논문 한 편을 찾았다 (Review on Problem with Null Hypothesis Significance Testing in Dental Research and Its Alternatives). 가설검정방식의 문제에 대해서는 주로 의학분야에서 많이 찾아볼 수 있다. 만약 새로운 신약의 효과를 검증하려고 할 때 유의확률을 어떻게 볼 것인지 일반적인 사회과학에서의 연구와 다르다고 생각한다. 위 논문에서 시작부분에 인용하고 있는 사례이다.

    2011년 3월, 미국 대법원은 오랜 심의 끝에 임상시험의 결과가 통계적으로 유의(significant)하지 않더라도 여전히 중요(important)할 수 있다고 판결하였다. 제약회사 Matrixx Initiatives는 처방전 없이 살 수 있는 약인 Zicam이 후각상실을 일으키는 부작용이 있지만 그 발생빈도가 통계적 유의수준에 미치지 않았기 때문에 이 부작용을 알릴 이유가 없었다고 주장하였으나 대법원은 그 주장을 기각하였다. ‘Matrixx Initiatives사 대 Siracusano’로 알려진 이 사건은 통계학자들 의 논평과 함께 언론에 보도되었다.

    통계값을 표기하는 방법과 검정방식이 기계적으로 쓰이고 오용되고 있는데서 발생하는 문제들이 많다. 우선은 통계값을 표기할 때 사람들이 어떻게 이해하는가? 이에 대해 기거렌처의 책[1]에서 쓴 사례가 있다.

    이 여성들 가운데 유방암이 있을 확률은 0.8%다. 만일 어떤 여성이 유방암에 걸렸을 경우 유방촬영술 양성이 나올 확률은 90%다. 만일 어떤 여성이 유방암에 걸리지 않았더라도 유방촬영술 양성이 나올 확률은 7%다. 이제 한 여성이 유방촬영술 양성이 나왔다고 가정하자. 실제로 유방암에 걸렸을 확률은 얼마인가?

    과연 이 문장을 보고 확률적 추론을 할 수 있는 사람이 얼마나 될까. 다음의 글을 보면 조금 더 쉽게 이해할 수 있다.

    1000명 중 8명의 여성이 유방암에 걸린다. 이 8명 중 7명은 유방촬영술 양성이 나올 것이다. 유방암에 걸리지 않은 992명의 여성 중 70명에서도 유방촬영술 양성이 나올것이다. 이제 검진 결과 유방촬영술 양성이 나온 여성만 고려해보자. 이중, 실제로 얼마나 많은 여성이 유방암에 걸렸는가?

    표기방식의 변화만으로도 수치등에 대한 이해가 훨씬 쉬워진다. 이번 Basic and Applied Social Psychology 사설에서도 논문 상 p-value를 표기해도 되지만 모두 지우고 출판될 것이며, 되도록이면 많은 샘플을 이용하고 기술통계량 외에 effect size에 대한 부분이 포함되어야 함을 말하고 있다.

    개인적으로 내가 있는 분야는 시스템의 개선부분이 있다면 적용이 어렵지 않고 잘못된 이용으로 인한 부작용도 크지 않기에 통계가 가지는 의미에 대해 깊이 고려하지 않는게 아닐까 하는 생각이 든다. 하지만 내가 하고 있는 연구들이 실제로 어떤 의미를 가지는지 고민한다면 이런 문제에 관심을 가질 필요가 있을것이라고 본다.


    1. 숫자에 속아 위험한 선택을 하는 사람들  ↩

  • 왜 p-value 사용을 금지하는가?

    Basic and Applied Social Psychology에서 p-value 사용을 금지한 것과 관련해 r-bloggers에 p-value 사용을 금지하는지에 대한 글이 실렸다. 이 글에서는 샘플링의 문제로 영가설을 거부하는 결과가 나올 수 있다는 사실을 간단한 시뮬레이션을 통해 보여주고 있다. 그런데 댓글에서도 볼 수 있듯이 효과크기에 대한 이야기들이 많이 빠져 있다. 그래서 효과 크기와 관련된 논문을 찾다가 Using Effect Size—or Why the P Value Is Not Enough라는 논문을 찾아서 읽어봤다.

    효과 크기는 양적 연구의 주요한 결과물이다. p-value는 독자들에게 효과가 존재하는지 아닌지를 알려주는 반면, 효과의 크기를 나타내지는 못한다. 연구결과를 보고하고 해석하는데 있어서, 실질적인 중요성 (효과크기)와 통계적인 중요성 (p-value) 모두 보고되어야 하는 필수적인 결과다.
    The effect size is the main finding of a quantitative study. While a P value can inform the reader whether an effect exists, the P value will not reveal the size of the effect. In reporting and interpreting studies, both the substantive significance (effect size) and statistical significance (P value) are essential results to be reported.

    p-value만으로는 충분하지 않은지에 대해 심근경색과 아스피린에 관한 사례를 이야기하고 있다. 22,000명 이상의 피실험자를 대상으로 한 실험 결과에서 아스피린이 심근경색을 줄일 수 있다는 결과는 매우 높은 유의성 (p < .00001)으로 검증이 되었다. 너무 확실한 결과로 인해 연구는 조기 종료되었는데 효과 크기는 매우 작았다 (나도 도움이 된다고 알고 있었는데, 이 논문을 보고 알게 되었다) .

    이 외에도 유방암 조기 검사와 관련된 사례도 있다. 여성들이 조기에 유방암 검사를 하게 됨으로써 얻게 되는 이익은 무엇이고 안게 되는 위험은 무엇인가? 실질적으로 얼마나 유방암을 예방할 수 있을지에 대해서는 큰 효과가 없다는 사례도 보았다.

    p-value보다 효과 크기에 더 집중해야 하는지는 샘플 사이즈가 증가하면서 생긴 변화라는 생각이 든다. 2013년도 Information Systems Research에 나온 Too Big to Fail: Large Samples and the p-Value Problem라는 논문에서도 이런 사례에 대해서 이야기하고 있다. 예전보다 많은 수의 샘플을 가지고 하는 연구들이 용이해졌고 그렇기 때문에 더욱 효과 크기에 집중해야 하는게 아닌가 싶다.

    하지만 연구를 하다보면 항상 새로운 연구 결과를 요구하고 참신하고 기존과는 다른 것만을 요구하기 때문에 이런 식으로 된 건 아닐까 싶다. 꼭 저널에 실리지 않더라도 연구가 복제되고 심지어 유의하지 않거나 논쟁이 될 수 있는 결과까지 출판[1]할 수 있다면 연구한다는게 훨씬 더 나은 의미를 가질 수 있지 않을까 생각한다.


    1. 엘스비어 출판사에서 New Negatives in Plant Science라는 저널을 만들었다. 이와 관련해서 왜 과학은 부정적인 결과를 출판할 필요가 있는지에 대한 간단한 사설을 실었다.  ↩

  • p-value 금지는 과학을 위한 큰 도약

    저널을 위해서는 작은 전진이지만 과학을 위해서는 큰 도약이라는 p-value 금지와 관련된 기사가 있어 옮겨놓는다 (P value ban: small step for a journal, giant leap for science).

    “이 방법이 이루어 낸 탁월한 것에서도 불구하고 … 이성적 추론의 본성에 대한 근본적 오해에 기반하고 있고, 비록 과학적 연구에 적절한 부분이 있다 해도 극히 드물다” 과학철학자 William Rozeboom은 1960년대에 말했다. 이후 그는 이것을 “지금까지 제도화 된 학생들의 암기식 교육중에서 확실하게 가장 멍청했던 잘못 판단한 절차”라고 말했다.

    “Despite the awesome pre-eminence this method has attained … it is based upon a fundamental misunderstanding of the nature of rational inference, and is seldom if ever appropriate to the aims of scientific research,” the philosopher of science William Rozeboom wrote — in 1960. Later he called it “surely the most bone-headedly misguided procedure ever institutionalized in the rote training of science students.”

    이러한 문제와 관련되어 언급되었던 p-value hacking이나 동일한 결과가 재현이 되지 않는 것에 대한 지적들도 언급하고 있다. 그리고 재미있는 사실도 마지막에 이야기하고 있는데 유명한 과학저널 (어디인지는 모르지만) 이와 관련된 설명에서 다음과 같이 언급했다고 한다.

    “the closer to zero the P value gets, the greater the chance that the null hypothesis is false.”

    어찌보면 통계란 이해하기 어려운 표현방식이다. 없애는 것이 커뮤니케이션을 위해 훨씬 좋은 방안일지도 모른다.

  • 왜 Stata를 사용해야 하는가?

    여러가지 통계 패키지 중에서 왜 Stata를 쓰는지에 대한 글 (Why Use Stata?)을 보았다. 어떤 분도 비슷한 이야기를 했던게 생각난다. 내가 SPSS를 사용한다고 했더니 당장 가져다 버리고 Stata를 쓰라고 이야기했었다. 그리고 그 분이 말했던 장점이 여기에서 말하는 장점과 유사하다.

    Eviews, SAS, SPSS, R, Stata 정도의 선택에서 Eviews는 너무 특화되어 있고 SAS는 너무 비싸서 제외된다. R은 명령어를 자꾸 까먹어서 쓰기 어렵고 SPSS는 장사질 때문에 못 쓰겠다는 이야기다. 반면 Stata는 커멘드와 메뉴얼 두 가지 모두 사용이 가능하며 메뉴얼이 잘 되어 있어서 까먹어도 쉽게 찾아볼 수 있다는 점을 말한다.

    개인적으로도 비슷하게 느끼는데 가끔 가벼운 통계를 돌리기에는 SPSS가 편하다. 하지만 데이터가 1000개 정도만 넘어가도 금방 얼어버리는 경향이 있고 학교 라이센스가 없이 유료로 쓰기에는 솔직히 아깝다. SAS는 다 되는 건 알겠는데 너무 무겁고 비싸다. R은 공짜라서 좋기는 한데 명령어를 자꾸 까먹어서 매번 다시 검색해야 하는 상황이 불편하다. 데이터 다루기가 편한 면도 있지만 불편한 측면도 있다. 개인적으로도 Stata가 좋고 편한 건 알겠는데 통계를 매일같이 돌리는 입장은 아니어서 딱히 개인적으로 구매할 생각까지는 들지 않는다. 장기적으로는 좀 불편해도 R에 익숙해지는게 가장 좋은 선택은 아닌가 싶다.

  • 데이터 분석에 많이 쓰이는 소프트웨어

    세미나를 하다가 얼마전에 본 글이 생각나서 적어놓는다. R-bloggers에 올라왔던 Fastest Growing Software for Scholarly Analytics라는 글에서 분석에 사용되는 소프트웨어들의 트랜드를 시각화 해 놓은 자료가 있다. 2013년과 2014년을 기준으로 한 결과를 살펴보면 가장 인기 있는 소프트웨어는 Python, R, KNIME이고 가장 큰 하락세를 보이는 것은 SPSS와 SAS이다.

    fig_2e_scholarlyimpact20142