R Users Will Now Inevitably Become Bayesians

베이지안 모델링을 위한 brms, rstanarm 패키지를 소개하는 글이다. 앞 부분에서 베이지안에 대해 짧게 언급하고 있다.

회귀분석 모델링에서 모든 사람들이 베이지안 방식을 사용하지 않는데는 몇 가지 이유가 있다. 하나는 베이지안 모델링이 더 많은 생각을 요구하기 때문이다. 사전확률과 같은 성가신 일을 해야하고, 만약 절차가 오류 메시지 없이 실행된다면 답이 타당한지 가정할 수 없다. 두 번째 이유는 MCMC 샘플링이 유사한 형태 혹은 MLE 절차에 비해 느릴 수 있다. 세 번째 이유는 지금 베이즈 솔루션이 매우 고급화되어 있거나 BUGS, JAGS, Stan과 같은 일반적인 툴을 사용하는 지식을 요구하기 때문이다.

English
There are several reasons why everyone isn’t using Bayesian methods for regression modeling. One reason is that Bayesian modeling requires more thought: you need pesky things like priors, and you can’t assume that if a procedure runs without throwing an error that the answers are valid. A second reason is that MCMC sampling — the bedrock of practical Bayesian modeling — can be slow compared to closed-form or MLE procedures. A third reason is that existing Bayesian solutions have either been highly-specialized (and thus inflexible), or have required knowing how to use a generalized tool like BUGS, JAGS, or Stan.

언젠가부터 베이지안 모델링이 많이 이용되는 것 같다. 이를 이용한 논문들도 점점 많아져서 예전에 좀 찾아봤는데 이해하기가 쉽지 않다. 베이즈 정리는 특정한 사건이나 증거를 설명하기 위해 주관적인 믿음이 바뀌는 것을 표현한다. 간단하게는 주관주의 확률론이라고 말할 수 있을 것이다. 베이지안 방법이 가지는 장점은 여러가지가 있지만 가설이 참과 거짓인 확률을 설명할 수 있다는 점과 여러 가설들 사이에서 참일 확률을 비교할 수 있다는 점이다.

최근 심리학쪽에서 이슈가 되고 있는 p-value에 대한 문제나 가설검정에 대한 논의들로 인해 베이지안 모델링의 이러한 장점들이 주목을 받았다. 이번에는 마음 먹고 배워보려고 좀 알아봤으나 개론서라고 나와 있는 수준도 수학이 꽤나 많이 들어간다. 그래도 재미있기는 한데 사전확률의 분포와 샘플링에 대한 부분에서는 점점 복잡해져서 실제로 어떻게 적용해야할지 감이 잘 오지 않는다.