Category: Statistics

  • 필요한 시각화를 찾도록 도와주는 사이트

    from Data to Viz 입력되는 데이터 유형을 기반으로 어떤 종류의 시각화가 가능한지를 보여주는 의사결정트리 형태의 사이트. 오랜만에 데이터를 돌릴 때 확인하는 것도 좋을 것 같다.

  • 데이터사이언티스트, 머신러닝, 인공지능 차이점

    What’s the difference between data science, machine learning, and artificial intelligence? varianceexplained.org · by David Robinson Data Scientist, Machine Learning, Artifical Intelligence를 간단한 개념으로 구분하는 방식을 제시. 각 영역은 중복되는 부분이 많지만 상호호환하여 사용할 수 있는 용어는 아니며 매우 간단한 개념적 구분임에도 특정 작업이 세 가지 중 어떤 것으로 분류되는지를 이해할 수 있게 해 준다.…

  • RStudio v1.1 업데이트

    R Studio 1.1 버전이 업데이트 되었다. 다양한 데이터베이스 파일과 쉽게 연결할 수 있는 연결 탭, IDE와 쉘 통합을 제공하는 터미널 탭이 생겼다. 다른 변화들도 많지만 바로 눈에 띄는건 레티나 퀄리티의 아이콘과 다크테마를 지원하는 새로운 디자인. 요즘 자주 사용하는데 꽤 많이 바뀐 업데이트라 눈에 띈다. [다운로드 페이지](https://www.rstudio.com/products/rstudio/#Desktop)

  • 딥러닝의 한계

    The limitations of deep learning The Keras blog by Francois Chollet 딥러닝의 가장 기본적인 원리를 설명하고 딥러닝을 사람처럼 생각했을 때 발생할 수 있는 문제점을 언급하는 글. 예전에는 단순한 경사하강법을 활용한 매개변수 모델이 이렇게 놀라운 결과를 가져올 것이라고 예측하지 못했음. 딥러닝에서 모든 것은 벡터, 즉 기하학적 공간의 한 점이 됨. 어떤 데이터를 벡터로 만든 후 한…

  • 짧은 R 메뉴얼

    A (very) short introduction to R 12장 짜리 간단한 R 메뉴얼을 봐서 올려놓는다. 이런게 있어도 오랜만에 다시 쓰려면 언제나 다시 찾아봐야 하는거는 피할 수 없지만 짧다는 사실이 좋다.

  • Python R vs. SAS STATA

    Python & R vs. SPSS & SAS By Jeroen Kromme, www.r-bloggers.com SAS, SPSS, R, Python의 장단점에 대해 이야기한 글이다. 몇 가지 부분에서 SAS & SPSS와 Python & R의 장단점을 비교하고 있다. SAS와 SPSS는 아카데미 환경에서 발전했고 가설검증에 초점을 맞추고 있다. 다른 분석에도 쓰일 수 있으나 추가 라이센스가 필요하다. 반면에 Python, R의 장점은 오픈소스이고 계속해서 기능들이…

  • 확률통계에 대한 이론 시각화

    Seeing Theory 통계와 관련된 이론을 시각화를 통해 직관적으로 이해하게 해주는 사이트. Seeing Theory는 Brown University의 Royce Fellowship Program 과 National Science Foundation group STATS4STEM의 지원을 받아 Daniel Kunin이 디자인하고 만든 프로젝트입니다.

  • 범죄예측 알고리즘과 인종

    by Julia Angwin, Jeff Larson, Surya Mattu and Lauren Kirchner, ProPublica, Machine Bias 프로퍼블리카에 올라온 장문의 글이다. 긴 글을 보는건 부담스럽지만 흥미로운 내용이라서 적어놓는다. 국내 법정에서도 이런 방식을 사용하는지는 모르겠지만 미국에서는 범죄에 대한 법정 판결에서 위험 평가(risk assessment)라는 것을 참고하는가보다. 간단하게 이야기하면 다음과 같다. (위험 평가) 공식은 흑인 피고인들에게 미래 범죄자라고 잘못 표시할 가능성이 있다.…

  • 가볍게 시작하는 통계학습

    가볍게 시작하는 통계학습 Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani가 쓴 An Introduction to Statistical Learning이 번역되어 나왔다. 원문 PDF는 공개되어 있어서 사이트에서 다운받을 수 있고, Hastie와 Tibshirani의 동영상 강의도 온라인에서 볼 수 있다. 이해하기 쉽게 잘 쓰여져 있던걸로 기억한다. 일반적인 사회과학 통계보다는 머신러닝쪽에 관심을 가지고 있는 사람들이 볼 만한 내용들로 구성되어 있다.…

  • R 이용자들은 필연적으로 베이지안이 될 것이다

    R Users Will Now Inevitably Become Bayesians 베이지안 모델링을 위한 brms, rstanarm 패키지를 소개하는 글이다. 앞 부분에서 베이지안에 대해 짧게 언급하고 있다. 회귀분석 모델링에서 모든 사람들이 베이지안 방식을 사용하지 않는데는 몇 가지 이유가 있다. 하나는 베이지안 모델링이 더 많은 생각을 요구하기 때문이다. 사전확률과 같은 성가신 일을 해야하고, 만약 절차가 오류 메시지 없이 실행된다면 답이 타당한지…