RStudio v1.1 업데이트

R Studio 1.1 버전이 업데이트 되었다.

다양한 데이터베이스 파일과 쉽게 연결할 수 있는 연결 탭, IDE와 쉘 통합을 제공하는 터미널 탭이 생겼다. 다른 변화들도 많지만 바로 눈에 띄는건 레티나 퀄리티의 아이콘과 다크테마를 지원하는 새로운 디자인. 요즘 자주 사용하는데 꽤 많이 바뀐 업데이트라 눈에 띈다.

[다운로드 페이지][(https://www.rstudio.com/products/rstudio/#Desktop)

By |10월 10th, 2017|Statistics|RStudio v1.1 업데이트에 댓글 닫힘

딥러닝의 한계

The limitations of deep learning
The Keras blog by Francois Chollet

딥러닝의 가장 기본적인 원리를 설명하고 딥러닝을 사람처럼 생각했을 때 발생할 수 있는 문제점을 언급하는 글.

예전에는 단순한 경사하강법을 활용한 매개변수 모델이 이렇게 놀라운 결과를 가져올 것이라고 예측하지 못했음. 딥러닝에서 모든 것은 벡터, 즉 기하학적 공간의 한 점이 됨. 어떤 데이터를 벡터로 만든 후 한 공간을 다른 공간에 매핑하는 복잡한 기하학적 변환을 학습. 하지만 추론이 필요한 영역같은 경우 딥러닝에서 멀리 떨어져 있는 영역. 글에서는 간단한 트릭을 통해 딥러닝 모델이 오분류하게 만드는 사례가 나옴

결론적으로 단순하게 매핑하는 딥러닝과 복잡한 인간의 능력에는 큰 차이가 있다는 이야기.

기억해야 할 것은 다음과 같습니다. 지금까지 딥러닝의 성공은 많은 양의 인간 주석 데이터가 주어지면서 연속적인 기하학적 변형을 사용하여 공간 X를 공간 Y에 매핑하는 기능이었습니다. 이 작업을 수행하는 것은 본질적으로 모든 산업 분야의 게임을 바꾸어놓았지만 인간 수준의 인공 지능으로는 아직 먼 이야기입니다. eng

Here’s what you should remember: the only real success of deep learning so far has been the ability to map space X to space Y using a continuous geometric transform, given large amounts of human-annotated data. Doing this well is a game-changer for essentially every industry, but it is still a very long way from human-level AI.
By |8월 1st, 2017|Statistics|딥러닝의 한계에 댓글 닫힘

짧은 R 메뉴얼

A (very) short introduction to R

12장 짜리 간단한 R 메뉴얼을 봐서 올려놓는다. 이런게 있어도 오랜만에 다시 쓰려면 언제나 다시 찾아봐야 하는거는 피할 수 없지만 짧다는 사실이 좋다.

By |4월 17th, 2017|Statistics|짧은 R 메뉴얼에 댓글 닫힘

Python R vs. SAS STATA

Python & R vs. SPSS & SAS By Jeroen Kromme, www.r-bloggers.com

SAS, SPSS, R, Python의 장단점에 대해 이야기한 글이다. 몇 가지 부분에서 SAS & SPSS와 Python & R의 장단점을 비교하고 있다. SAS와 SPSS는 아카데미 환경에서 발전했고 가설검증에 초점을 맞추고 있다. 다른 분석에도 쓰일 수 있으나 추가 라이센스가 필요하다. 반면에 Python, R의 장점은 오픈소스이고 계속해서 기능들이 추가되고 있다는 점이다. Python, R의 단점으로는 코딩에 익숙하지 않은 사람들이 초반에 진입하기에 학습이 많이 필요하다는 점이다.

나는 STATA를 쓰고 있는데 문서로 결과를 내는 과정까지 생각하면 Python이나 R 중 하나로 통일해서 쓰는게 낫지 않을까 하는 생각도 든다.

By |3월 20th, 2017|Statistics|Python R vs. SAS STATA에 댓글 닫힘

확률통계에 대한 이론 시각화

Seeing Theory

통계와 관련된 이론을 시각화를 통해 직관적으로 이해하게 해주는 사이트.

Seeing Theory는 Brown University의 Royce Fellowship Program 과 National Science Foundation group STATS4STEM의 지원을 받아 Daniel Kunin이 디자인하고 만든 프로젝트입니다.

By |3월 8th, 2017|Statistics|확률통계에 대한 이론 시각화에 댓글 닫힘

범죄예측 알고리즘과 인종

by Julia Angwin, Jeff Larson, Surya Mattu and Lauren Kirchner, ProPublica, Machine Bias

프로퍼블리카에 올라온 장문의 글이다. 긴 글을 보는건 부담스럽지만 흥미로운 내용이라서 적어놓는다. 국내 법정에서도 이런 방식을 사용하는지는 모르겠지만 미국에서는 범죄에 대한 법정 판결에서 위험 평가(risk assessment)라는 것을 참고하는가보다. 간단하게 이야기하면 다음과 같다.

  • (위험 평가) 공식은 흑인 피고인들에게 미래 범죄자라고 잘못 표시할 가능성이 있다. 이런 식으로 잘못 낙인찍히는 흑인 피고인들이 백인에 거의 두 배 가까이 된다.
  • 백인 피고인들은 흑인 피고인들에 비해 종종 낮은 위험을 가진 것으로 잘못 판정된다.

범죄 관련 연구에서 오랫동안 미래의 범죄를 예측하려고 노력해왔고, 1970년대와 같은 초기에는 인종, 국적, 피부색과 같은 요인들이 사용되기도 했다. 그 이후로 다양한 연구들이 이루어진 것 같다. 최근 2016년 연구에서는 흑인들이 더 높은 점수를 받지만 편견이 원인이 아니라고 결론지었다. 하지만 실제 기사에 나오는 사례들을 보면 재범률이 낮음에도 불구하고 흑인이기 때문에 높은 점수를 받았다는 사례들이 제시된다. 중요한 것은 이런 평가 과정 자체를 명확히 알 수 없다는 것이다.

피고인들은 그들의 평가에 이이를 제기할 기회를 거의 가지지 못한다. 결과는 피고인의 변호사와 공유되지만 기반하는 데이터로부터 점수로 변환된 계산은 거의 밝혀지지 않는다. English

Defendants rarely have an opportunity to challenge their assessments. The results are usually shared with the defendant’s attorney, but the calculations that transformed the underlying data into a score are rarely revealed.

통계라는게 세상이 확률적이라는 가정 아래서 미래의 사건을 예측하려는 것이지만 오차가 발생할 수밖에 없다. 데이터와 알고리즘에 기반한 예측이 인간 개인에게 적용되었을 때 과연 공정하다고 말할 수 있을까. 과거 데이터를 기반으로 분류하는 통계적 방법이 연좌제 같다는 생각이 들기도 한다.

By |5월 24th, 2016|Statistics|범죄예측 알고리즘과 인종에 댓글 닫힘

가볍게 시작하는 통계학습

가볍게 시작하는 통계학습

Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani가 쓴 An Introduction to Statistical Learning이 번역되어 나왔다. 원문 PDF는 공개되어 있어서 사이트에서 다운받을 수 있고, Hastie와 Tibshirani의 동영상 강의도 온라인에서 볼 수 있다. 이해하기 쉽게 잘 쓰여져 있던걸로 기억한다. 일반적인 사회과학 통계보다는 머신러닝쪽에 관심을 가지고 있는 사람들이 볼 만한 내용들로 구성되어 있다. 아무래도 원서를 보는게 훨씬 나을 것 같다는 생각은 들지만 나중에 혹시 볼 일이 있을까봐 적어놓는다.

By |5월 3rd, 2016|Statistics|가볍게 시작하는 통계학습에 댓글 닫힘

R 이용자들은 필연적으로 베이지안이 될 것이다

R Users Will Now Inevitably Become Bayesians

베이지안 모델링을 위한 brms, rstanarm 패키지를 소개하는 글이다. 앞 부분에서 베이지안에 대해 짧게 언급하고 있다.

회귀분석 모델링에서 모든 사람들이 베이지안 방식을 사용하지 않는데는 몇 가지 이유가 있다. 하나는 베이지안 모델링이 더 많은 생각을 요구하기 때문이다. 사전확률과 같은 성가신 일을 해야하고, 만약 절차가 오류 메시지 없이 실행된다면 답이 타당한지 가정할 수 없다. 두 번째 이유는 MCMC 샘플링이 유사한 형태 혹은 MLE 절차에 비해 느릴 수 있다. 세 번째 이유는 지금 베이즈 솔루션이 매우 고급화되어 있거나 BUGS, JAGS, Stan과 같은 일반적인 툴을 사용하는 지식을 요구하기 때문이다.

English
There are several reasons why everyone isn’t using Bayesian methods for regression modeling. One reason is that Bayesian modeling requires more thought: you need pesky things like priors, and you can’t assume that if a procedure runs without throwing an error that the answers are valid. A second reason is that MCMC sampling — the bedrock of practical Bayesian modeling — can be slow compared to closed-form or MLE procedures. A third reason is that existing Bayesian solutions have either been highly-specialized (and thus inflexible), or have required knowing how to use a generalized tool like BUGS, JAGS, or Stan.

언젠가부터 베이지안 모델링이 많이 이용되는 것 같다. 이를 이용한 논문들도 점점 많아져서 예전에 좀 찾아봤는데 이해하기가 쉽지 않다. 베이즈 정리는 특정한 사건이나 증거를 설명하기 위해 주관적인 믿음이 바뀌는 것을 표현한다. 간단하게는 주관주의 확률론이라고 말할 수 있을 것이다. 베이지안 방법이 가지는 장점은 여러가지가 있지만 가설이 참과 거짓인 확률을 설명할 수 있다는 점과 여러 가설들 사이에서 참일 확률을 비교할 수 있다는 점이다.

최근 심리학쪽에서 이슈가 되고 있는 p-value에 대한 문제나 가설검정에 대한 논의들로 인해 베이지안 모델링의 이러한 장점들이 주목을 받았다. 이번에는 마음 먹고 배워보려고 좀 알아봤으나 개론서라고 나와 있는 수준도 수학이 꽤나 많이 들어간다. 그래도 재미있기는 한데 사전확률의 분포와 샘플링에 대한 부분에서는 점점 복잡해져서 실제로 어떻게 적용해야할지 감이 잘 오지 않는다.

By |1월 17th, 2016|Statistics|R 이용자들은 필연적으로 베이지안이 될 것이다에 댓글 닫힘

R 관련 추천도서

Rated R: Recommended Reading

Advanced R은 읽어보려고 구입했는데 아직 펼쳐보지도 못했다. 요즘은 꼭 R을 써야만 하는걸까 하는 생각도 많이 든다. 너무 프로그래밍 하는 사람들에게 맞춰져 있어서 단순히 통계만 돌린다면 STATA를 사용하는게 훨씬 편하다는 생각을 많이 한다.

By |11월 24th, 2015|Statistics|R 관련 추천도서에 댓글 닫힘

베이지안 모델을 사용한 아내의 임신 여부 추정 모델

r-bloggers를 보다가 올라온 A Bayesian Model to Calculate Whether My Wife is Pregnant or Not

아내의 생리주기 데이터를 통해 실제 아내가 임신했는지 여부를 베이지안 모델을 사용하여 추정하는 방식. 몇 가지 일반적인 가정과 모델에 대한 구체적인 가정을 통해 베이지안 모델로 추론하는 방식에 대해 써놨다. 모델에 대한 몇 가지 비판에 대해서도 기술했는데 다른 예측 변인들을 추가할 수 있다든지 분포에 대한 가정들이 잘못되었을 수 있다든지에 대해 언급한다. 하지만 결론적으로 실제 아이를 가지게 되었다고 적고 있다.

지금은 쓸 일이 없겠지만 나도 나중에 한 번 사용해볼까 하는 생각이 든다.

By |11월 9th, 2015|Statistics|베이지안 모델을 사용한 아내의 임신 여부 추정 모델에 댓글 닫힘