R Users Will Now Inevitably Become Bayesians
베이지안 모델링을 위한 brms, rstanarm 패키지를 소개하는 글이다. 앞 부분에서 베이지안에 대해 짧게 언급하고 있다.
회귀분석 모델링에서 모든 사람들이 베이지안 방식을 사용하지 않는데는 몇 가지 이유가 있다. 하나는 베이지안 모델링이 더 많은 생각을 요구하기 때문이다. 사전확률과 같은 성가신 일을 해야하고, 만약 절차가 오류 메시지 없이 실행된다면 답이 타당한지 가정할 수 없다. 두 번째 이유는 MCMC 샘플링이 유사한 형태 혹은 MLE 절차에 비해 느릴 수 있다. 세 번째 이유는 지금 베이즈 솔루션이 매우 고급화되어 있거나 BUGS, JAGS, Stan과 같은 일반적인 툴을 사용하는 지식을 요구하기 때문이다.
[expand title=English]
There are several reasons why everyone isn’t using Bayesian methods for regression modeling. One reason is that Bayesian modeling requires more thought: you need pesky things like priors, and you can’t assume that if a procedure runs without throwing an error that the answers are valid. A second reason is that MCMC sampling — the bedrock of practical Bayesian modeling — can be slow compared to closed-form or MLE procedures. A third reason is that existing Bayesian solutions have either been highly-specialized (and thus inflexible), or have required knowing how to use a generalized tool like BUGS, JAGS, or Stan.[/expand]
언젠가부터 베이지안 모델링이 많이 이용되는 것 같다. 이를 이용한 논문들도 점점 많아져서 예전에 좀 찾아봤는데 이해하기가 쉽지 않다. 베이즈 정리는 특정한 사건이나 증거를 설명하기 위해 주관적인 믿음이 바뀌는 것을 표현한다. 간단하게는 주관주의 확률론이라고 말할 수 있을 것이다. 베이지안 방법이 가지는 장점은 여러가지가 있지만 가설이 참과 거짓인 확률을 설명할 수 있다는 점과 여러 가설들 사이에서 참일 확률을 비교할 수 있다는 점이다.
최근 심리학쪽에서 이슈가 되고 있는 p-value에 대한 문제나 가설검정에 대한 논의들로 인해 베이지안 모델링의 이러한 장점들이 주목을 받았다. 이번에는 마음 먹고 배워보려고 좀 알아봤으나 개론서라고 나와 있는 수준도 수학이 꽤나 많이 들어간다. 그래도 재미있기는 한데 사전확률의 분포와 샘플링에 대한 부분에서는 점점 복잡해져서 실제로 어떻게 적용해야할지 감이 잘 오지 않는다.
