Python R vs. SAS STATA

Python & R vs. SPSS & SAS By Jeroen Kromme, www.r-bloggers.com

SAS, SPSS, R, Python의 장단점에 대해 이야기한 글이다. 몇 가지 부분에서 SAS & SPSS와 Python & R의 장단점을 비교하고 있다. SAS와 SPSS는 아카데미 환경에서 발전했고 가설검증에 초점을 맞추고 있다. 다른 분석에도 쓰일 수 있으나 추가 라이센스가 필요하다. 반면에 Python, R의 장점은 오픈소스이고 계속해서 기능들이 추가되고 있다는 점이다. Python, R의 단점으로는 코딩에 익숙하지 않은 사람들이 초반에 진입하기에 학습이 많이 필요하다는 점이다.

나는 STATA를 쓰고 있는데 문서로 결과를 내는 과정까지 생각하면 Python이나 R 중 하나로 통일해서 쓰는게 낫지 않을까 하는 생각도 든다.

By |2017-03-20T04:08:02+09:003월 20th, 2017|Statistics|Python R vs. SAS STATA에 댓글 닫힘

확률통계에 대한 이론 시각화

Seeing Theory

통계와 관련된 이론을 시각화를 통해 직관적으로 이해하게 해주는 사이트.

Seeing Theory는 Brown University의 Royce Fellowship Program 과 National Science Foundation group STATS4STEM의 지원을 받아 Daniel Kunin이 디자인하고 만든 프로젝트입니다.

By |2017-03-08T14:25:54+09:003월 8th, 2017|Statistics|확률통계에 대한 이론 시각화에 댓글 닫힘

범죄예측 알고리즘과 인종

by Julia Angwin, Jeff Larson, Surya Mattu and Lauren Kirchner, ProPublica, Machine Bias

프로퍼블리카에 올라온 장문의 글이다. 긴 글을 보는건 부담스럽지만 흥미로운 내용이라서 적어놓는다. 국내 법정에서도 이런 방식을 사용하는지는 모르겠지만 미국에서는 범죄에 대한 법정 판결에서 위험 평가(risk assessment)라는 것을 참고하는가보다. 간단하게 이야기하면 다음과 같다.

  • (위험 평가) 공식은 흑인 피고인들에게 미래 범죄자라고 잘못 표시할 가능성이 있다. 이런 식으로 잘못 낙인찍히는 흑인 피고인들이 백인에 거의 두 배 가까이 된다.
  • 백인 피고인들은 흑인 피고인들에 비해 종종 낮은 위험을 가진 것으로 잘못 판정된다.

범죄 관련 연구에서 오랫동안 미래의 범죄를 예측하려고 노력해왔고, 1970년대와 같은 초기에는 인종, 국적, 피부색과 같은 요인들이 사용되기도 했다. 그 이후로 다양한 연구들이 이루어진 것 같다. 최근 2016년 연구에서는 흑인들이 더 높은 점수를 받지만 편견이 원인이 아니라고 결론지었다. 하지만 실제 기사에 나오는 사례들을 보면 재범률이 낮음에도 불구하고 흑인이기 때문에 높은 점수를 받았다는 사례들이 제시된다. 중요한 것은 이런 평가 과정 자체를 명확히 알 수 없다는 것이다.

피고인들은 그들의 평가에 이이를 제기할 기회를 거의 가지지 못한다. 결과는 피고인의 변호사와 공유되지만 기반하는 데이터로부터 점수로 변환된 계산은 거의 밝혀지지 않는다. English

Defendants rarely have an opportunity to challenge their assessments. The results are usually shared with the defendant’s attorney, but the calculations that transformed the underlying data into a score are rarely revealed.

통계라는게 세상이 확률적이라는 가정 아래서 미래의 사건을 예측하려는 것이지만 오차가 발생할 수밖에 없다. 데이터와 알고리즘에 기반한 예측이 인간 개인에게 적용되었을 때 과연 공정하다고 말할 수 있을까. 과거 데이터를 기반으로 분류하는 통계적 방법이 연좌제 같다는 생각이 들기도 한다.

By |2016-05-24T05:08:27+09:005월 24th, 2016|Statistics|범죄예측 알고리즘과 인종에 댓글 닫힘

가볍게 시작하는 통계학습

가볍게 시작하는 통계학습

Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani가 쓴 An Introduction to Statistical Learning이 번역되어 나왔다. 원문 PDF는 공개되어 있어서 사이트에서 다운받을 수 있고, Hastie와 Tibshirani의 동영상 강의도 온라인에서 볼 수 있다. 이해하기 쉽게 잘 쓰여져 있던걸로 기억한다. 일반적인 사회과학 통계보다는 머신러닝쪽에 관심을 가지고 있는 사람들이 볼 만한 내용들로 구성되어 있다. 아무래도 원서를 보는게 훨씬 나을 것 같다는 생각은 들지만 나중에 혹시 볼 일이 있을까봐 적어놓는다.

By |2016-05-03T04:17:08+09:005월 3rd, 2016|Statistics|가볍게 시작하는 통계학습에 댓글 닫힘

R 이용자들은 필연적으로 베이지안이 될 것이다

R Users Will Now Inevitably Become Bayesians

베이지안 모델링을 위한 brms, rstanarm 패키지를 소개하는 글이다. 앞 부분에서 베이지안에 대해 짧게 언급하고 있다.

회귀분석 모델링에서 모든 사람들이 베이지안 방식을 사용하지 않는데는 몇 가지 이유가 있다. 하나는 베이지안 모델링이 더 많은 생각을 요구하기 때문이다. 사전확률과 같은 성가신 일을 해야하고, 만약 절차가 오류 메시지 없이 실행된다면 답이 타당한지 가정할 수 없다. 두 번째 이유는 MCMC 샘플링이 유사한 형태 혹은 MLE 절차에 비해 느릴 수 있다. 세 번째 이유는 지금 베이즈 솔루션이 매우 고급화되어 있거나 BUGS, JAGS, Stan과 같은 일반적인 툴을 사용하는 지식을 요구하기 때문이다.

English
There are several reasons why everyone isn’t using Bayesian methods for regression modeling. One reason is that Bayesian modeling requires more thought: you need pesky things like priors, and you can’t assume that if a procedure runs without throwing an error that the answers are valid. A second reason is that MCMC sampling — the bedrock of practical Bayesian modeling — can be slow compared to closed-form or MLE procedures. A third reason is that existing Bayesian solutions have either been highly-specialized (and thus inflexible), or have required knowing how to use a generalized tool like BUGS, JAGS, or Stan.

언젠가부터 베이지안 모델링이 많이 이용되는 것 같다. 이를 이용한 논문들도 점점 많아져서 예전에 좀 찾아봤는데 이해하기가 쉽지 않다. 베이즈 정리는 특정한 사건이나 증거를 설명하기 위해 주관적인 믿음이 바뀌는 것을 표현한다. 간단하게는 주관주의 확률론이라고 말할 수 있을 것이다. 베이지안 방법이 가지는 장점은 여러가지가 있지만 가설이 참과 거짓인 확률을 설명할 수 있다는 점과 여러 가설들 사이에서 참일 확률을 비교할 수 있다는 점이다.

최근 심리학쪽에서 이슈가 되고 있는 p-value에 대한 문제나 가설검정에 대한 논의들로 인해 베이지안 모델링의 이러한 장점들이 주목을 받았다. 이번에는 마음 먹고 배워보려고 좀 알아봤으나 개론서라고 나와 있는 수준도 수학이 꽤나 많이 들어간다. 그래도 재미있기는 한데 사전확률의 분포와 샘플링에 대한 부분에서는 점점 복잡해져서 실제로 어떻게 적용해야할지 감이 잘 오지 않는다.

By |2016-01-17T12:45:07+09:001월 17th, 2016|Statistics|R 이용자들은 필연적으로 베이지안이 될 것이다에 댓글 닫힘
Go to Top