[카테고리:] Statistics

  • 온라인 옵트인 여론조사

    Online opt-in polls can produce misleading results, especially for young people and Hispanic adults

    온라인 여론 조사를 모두 신뢰하지 말아야 하는 이유. 데이터 품질에 관한 퓨리서치 이야기

    이번 선거에서 여론조사가 다시 주목받으면서 여론조사의 장단점을 이해하는 것이 중요합니다. 퓨 리서치 센터에서는 이러한 방법의 장점과 한계를 면밀히 검토해 왔습니다. 또한 온라인 ‘옵트인’ 샘플링 (무작위 추출이 아닌 배너 광고나 소셜 미디어 등 다양한 온라인 소스에서 사람들을 모집하는 방식)을 사용하는 여론조사의 데이터 품질 문제에 대한 설문조사 전문가들의 이해에 기여해왔습니다. … 특히 최근 여러 연구에서 온라인 옵트인 설문조사에서 소위 “가짜 응답자” 의 존재로 인해 큰 오류가 발생한다는 사실이 밝혀졌습니다. 이러한 응답자는 질문에 성실하게 답변하지 않고, 돈이나 기타 보상을 받기 위해 가능한 한 적은 노력으로 설문조사를 완료하려고 시도합니다.

  • 필요한 시각화를 찾도록 도와주는 사이트

    from Data to Viz

    입력되는 데이터 유형을 기반으로 어떤 종류의 시각화가 가능한지를 보여주는 의사결정트리 형태의 사이트. 오랜만에 데이터를 돌릴 때 확인하는 것도 좋을 것 같다.

  • RStudio v1.1 업데이트

    R Studio 1.1 버전이 업데이트 되었다.
    다양한 데이터베이스 파일과 쉽게 연결할 수 있는 연결 탭, IDE와 쉘 통합을 제공하는 터미널 탭이 생겼다. 다른 변화들도 많지만 바로 눈에 띄는건 레티나 퀄리티의 아이콘과 다크테마를 지원하는 새로운 디자인. 요즘 자주 사용하는데 꽤 많이 바뀐 업데이트라 눈에 띈다.
    [다운로드 페이지](https://www.rstudio.com/products/rstudio/#Desktop)

  • 데이터사이언티스트, 머신러닝, 인공지능 차이점

    What’s the difference between data science, machine learning, and artificial intelligence?
    varianceexplained.org · by David Robinson

    Data Scientist, Machine Learning, Artifical Intelligence를 간단한 개념으로 구분하는 방식을 제시. 각 영역은 중복되는 부분이 많지만 상호호환하여 사용할 수 있는 용어는 아니며 매우 간단한 개념적 구분임에도 특정 작업이 세 가지 중 어떤 것으로 분류되는지를 이해할 수 있게 해 준다.

    이 글에서 나는 세 가지 영역 사이의 차이점에 대한 단순화 된 정의를 제시한다
    – 데이터 사이언테스트는 인사이트를 만들어낸다
    – 머신 러닝은 예측을 만들어낸다
    – 인공지능은 행동을 만들어낸다[expand title=eng]
    So in this post, I’m proposing an oversimplified definition of the difference between the three fields:
    – Data science produces insights
    – Machine learning produces predictions
    – Artificial intelligence produces actions[/expand]

    세 가지를 구분하는 매우 좋은 기준이라는 느낌이다. 자세히 따지면 모호한 영역이 있음에도 직관적으로 이해하기 어렵지 않다.

  • 딥러닝의 한계

    The limitations of deep learning
    The Keras blog by Francois Chollet

    딥러닝의 가장 기본적인 원리를 설명하고 딥러닝을 사람처럼 생각했을 때 발생할 수 있는 문제점을 언급하는 글.

    예전에는 단순한 경사하강법을 활용한 매개변수 모델이 이렇게 놀라운 결과를 가져올 것이라고 예측하지 못했음. 딥러닝에서 모든 것은 벡터, 즉 기하학적 공간의 한 점이 됨. 어떤 데이터를 벡터로 만든 후 한 공간을 다른 공간에 매핑하는 복잡한 기하학적 변환을 학습. 하지만 추론이 필요한 영역같은 경우 딥러닝에서 멀리 떨어져 있는 영역. 글에서는 간단한 트릭을 통해 딥러닝 모델이 오분류하게 만드는 사례가 나옴

    결론적으로 단순하게 매핑하는 딥러닝과 복잡한 인간의 능력에는 큰 차이가 있다는 이야기.

    기억해야 할 것은 다음과 같습니다. 지금까지 딥러닝의 성공은 많은 양의 인간 주석 데이터가 주어지면서 연속적인 기하학적 변형을 사용하여 공간 X를 공간 Y에 매핑하는 기능이었습니다. 이 작업을 수행하는 것은 본질적으로 모든 산업 분야의 게임을 바꾸어놓았지만 인간 수준의 인공 지능으로는 아직 먼 이야기입니다. [expand title =eng]
    Here’s what you should remember: the only real success of deep learning so far has been the ability to map space X to space Y using a continuous geometric transform, given large amounts of human-annotated data. Doing this well is a game-changer for essentially every industry, but it is still a very long way from human-level AI.[/expand]

  • 짧은 R 메뉴얼

    A (very) short introduction to R

    12장 짜리 간단한 R 메뉴얼을 봐서 올려놓는다. 이런게 있어도 오랜만에 다시 쓰려면 언제나 다시 찾아봐야 하는거는 피할 수 없지만 짧다는 사실이 좋다.

  • 확률통계에 대한 이론 시각화

    Seeing Theory

    통계와 관련된 이론을 시각화를 통해 직관적으로 이해하게 해주는 사이트.

    Seeing Theory는 Brown University의 Royce Fellowship Program 과 National Science Foundation group STATS4STEM의 지원을 받아 Daniel Kunin이 디자인하고 만든 프로젝트입니다.

  • Python R vs. SAS STATA

    Python & R vs. SPSS & SAS By Jeroen Kromme, www.r-bloggers.com

    SAS, SPSS, R, Python의 장단점에 대해 이야기한 글이다. 몇 가지 부분에서 SAS & SPSS와 Python & R의 장단점을 비교하고 있다. SAS와 SPSS는 아카데미 환경에서 발전했고 가설검증에 초점을 맞추고 있다. 다른 분석에도 쓰일 수 있으나 추가 라이센스가 필요하다. 반면에 Python, R의 장점은 오픈소스이고 계속해서 기능들이 추가되고 있다는 점이다. Python, R의 단점으로는 코딩에 익숙하지 않은 사람들이 초반에 진입하기에 학습이 많이 필요하다는 점이다.

    나는 STATA를 쓰고 있는데 문서로 결과를 내는 과정까지 생각하면 Python이나 R 중 하나로 통일해서 쓰는게 낫지 않을까 하는 생각도 든다.

  • 가볍게 시작하는 통계학습

    가볍게 시작하는 통계학습

    Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani가 쓴 An Introduction to Statistical Learning이 번역되어 나왔다. 원문 PDF는 공개되어 있어서 사이트에서 다운받을 수 있고, Hastie와 Tibshirani의 동영상 강의도 온라인에서 볼 수 있다. 이해하기 쉽게 잘 쓰여져 있던걸로 기억한다. 일반적인 사회과학 통계보다는 머신러닝쪽에 관심을 가지고 있는 사람들이 볼 만한 내용들로 구성되어 있다. 아무래도 원서를 보는게 훨씬 나을 것 같다는 생각은 들지만 나중에 혹시 볼 일이 있을까봐 적어놓는다.

  • 범죄예측 알고리즘과 인종

    by Julia Angwin, Jeff Larson, Surya Mattu and Lauren Kirchner, ProPublica, Machine Bias

    프로퍼블리카에 올라온 장문의 글이다. 긴 글을 보는건 부담스럽지만 흥미로운 내용이라서 적어놓는다. 국내 법정에서도 이런 방식을 사용하는지는 모르겠지만 미국에서는 범죄에 대한 법정 판결에서 위험 평가(risk assessment)라는 것을 참고하는가보다. 간단하게 이야기하면 다음과 같다.

    • (위험 평가) 공식은 흑인 피고인들에게 미래 범죄자라고 잘못 표시할 가능성이 있다. 이런 식으로 잘못 낙인찍히는 흑인 피고인들이 백인에 거의 두 배 가까이 된다.
    • 백인 피고인들은 흑인 피고인들에 비해 종종 낮은 위험을 가진 것으로 잘못 판정된다.

    범죄 관련 연구에서 오랫동안 미래의 범죄를 예측하려고 노력해왔고, 1970년대와 같은 초기에는 인종, 국적, 피부색과 같은 요인들이 사용되기도 했다. 그 이후로 다양한 연구들이 이루어진 것 같다. 최근 2016년 연구에서는 흑인들이 더 높은 점수를 받지만 편견이 원인이 아니라고 결론지었다. 하지만 실제 기사에 나오는 사례들을 보면 재범률이 낮음에도 불구하고 흑인이기 때문에 높은 점수를 받았다는 사례들이 제시된다. 중요한 것은 이런 평가 과정 자체를 명확히 알 수 없다는 것이다.

    피고인들은 그들의 평가에 이이를 제기할 기회를 거의 가지지 못한다. 결과는 피고인의 변호사와 공유되지만 기반하는 데이터로부터 점수로 변환된 계산은 거의 밝혀지지 않는다. [expand title=English]

    Defendants rarely have an opportunity to challenge their assessments. The results are usually shared with the defendant’s attorney, but the calculations that transformed the underlying data into a score are rarely revealed.[/expand]

    통계라는게 세상이 확률적이라는 가정 아래서 미래의 사건을 예측하려는 것이지만 오차가 발생할 수밖에 없다. 데이터와 알고리즘에 기반한 예측이 인간 개인에게 적용되었을 때 과연 공정하다고 말할 수 있을까. 과거 데이터를 기반으로 분류하는 통계적 방법이 연좌제 같다는 생각이 들기도 한다.