HYSONG

Category: Statistics

R 관련 추천도서

Rated R: Recommended Reading Advanced R은 읽어보려고 구입했는데 아직 펼쳐보지도 못했다. 요즘은 꼭 R을 써야만 하는걸까 하는 생각도 많이 든다. 너무 프로그래밍 하는 사람들에게 맞춰져 있어서 단순히 통계만 돌린다면 STATA를 사용하는게 훨씬 편하다는 생각을 많이 한다.

November 24, 2015
베이지안 모델을 사용한 아내의 임신 여부 추정 모델

r-bloggers를 보다가 올라온 A Bayesian Model to Calculate Whether My Wife is Pregnant or Not 아내의 생리주기 데이터를 통해 실제 아내가 임신했는지 여부를 베이지안 모델을 사용하여 추정하는 방식. 몇 가지 일반적인 가정과 모델에 대한 구체적인 가정을 통해 베이지안 모델로 추론하는 방식에 대해 써놨다. 모델에 대한 몇 가지 비판에 대해서도 기술했는데 다른 예측 변인들을 추가할 수…

November 9, 2015
앵거스 디턴의 삶과 학문적 업적

NYT에 올라온 Why Angus Deaton Deserved the Economics Nobel Prize를 뉴스페퍼민트에서 번역. 국내에서 위대한 탈출의 오역 문제로 더욱 화제가 되고 있는데 디턴이 어떤 이유로 노벨경제학상을 받게 되었는지 자세히 알 수 있는 기사. 읽다가 눈에 들어온 부분은 다음의 내용. 그는 어떤 정책이 효과가 있는지 없는지를 알아보려면, 가능한 한 무작위 대조군 연구방법 등을 통해 실험적 검증을 해봐야…

October 30, 2015
과학적인 방법: 통계적 오류들

Nature에 실린 Scientific method: Statistical errors라는 제목의 글이 전문 번역되어 나왔다. 차분하게 읽어볼만한 글이다. 존스홉킨스 대학 보건학과의 통계학자인 리차드 로얄(Richard Royall)은 과학자가 연구 후에 묻고 싶은 세가지 질문이 있다고 말한다. “무엇이 증거인가?”, “내가 무엇을 믿어야 하는가?”, “내가 무엇을 해야 하는가?”. 단 하나의 방법으로 세가지질문에 대하여 답하지 못할 것이다. 구드만은 “숫자들은 과학적 논의가 시작되어야 할 곳이지…

October 26, 2015
통계적 유의성에 대한 나쁜 정의

Andrew Gelman 교수가 U.S. Department of Health and Human Services에 올라온 통계적 유의성에 대한 정의를 보고 A bad definition of statistical significance라는 글을 남겼다. 원래 올라와 있던 정의는 다음과 같다. 정의: 연구의 결과가 참일 가능성이 있는지를 측정하는 수학적 기법이다. 통계적 유의성은 연구에서 관찰된 효과가 우연으로 인해 발생할 확률로 계산된다. 통계적 유의성은 보통 p-value로 표현된다. p-value가…

July 23, 2015
R과 비슷한 성장세를 보이는 Stata

R-bloggers에 Stata’s Academic Growth Nearly as Fast as R’s라는 글이 올라왔다. SPSS와 SAS를 제외하고 그린 그래프를 보면 학술연구에서 Stata의 성장세가 R과 유사하게 빠르다는 사실을 알 수 있다. R이 무료이고 여러가지 확장기능을 지원하지만 단점이라면 필요한 라이브러리를 적절하게 찾기 어렵다는 점이 있다. 하지만 Stata의 경우 분석에 필요한 것들을 메뉴얼로 제공해주니 정형화 된 데이터만을 다루는 경우에는 오히려 Stata가…

May 13, 2015
데이터 분석에 많이 쓰이는 소프트웨어

세미나를 하다가 얼마전에 본 글이 생각나서 적어놓는다. R-bloggers에 올라왔던 Fastest Growing Software for Scholarly Analytics라는 글에서 분석에 사용되는 소프트웨어들의 트랜드를 시각화 해 놓은 자료가 있다. 2013년과 2014년을 기준으로 한 결과를 살펴보면 가장 인기 있는 소프트웨어는 Python, R, KNIME이고 가장 큰 하락세를 보이는 것은 SPSS와 SAS이다.

April 30, 2015
왜 Stata를 사용해야 하는가?

여러가지 통계 패키지 중에서 왜 Stata를 쓰는지에 대한 글 (Why Use Stata?)을 보았다. 어떤 분도 비슷한 이야기를 했던게 생각난다. 내가 SPSS를 사용한다고 했더니 당장 가져다 버리고 Stata를 쓰라고 이야기했었다. 그리고 그 분이 말했던 장점이 여기에서 말하는 장점과 유사하다. Eviews, SAS, SPSS, R, Stata 정도의 선택에서 Eviews는 너무 특화되어 있고 SAS는 너무 비싸서 제외된다. R은 명령어를…

March 24, 2015
p-value 금지는 과학을 위한 큰 도약

저널을 위해서는 작은 전진이지만 과학을 위해서는 큰 도약이라는 p-value 금지와 관련된 기사가 있어 옮겨놓는다 (P value ban: small step for a journal, giant leap for science). “이 방법이 이루어 낸 탁월한 것에서도 불구하고 … 이성적 추론의 본성에 대한 근본적 오해에 기반하고 있고, 비록 과학적 연구에 적절한 부분이 있다 해도 극히 드물다” 과학철학자 William Rozeboom은 1960년대에…

March 24, 2015
왜 p-value 사용을 금지하는가?

Basic and Applied Social Psychology에서 p-value 사용을 금지한 것과 관련해 r-bloggers에 왜 p-value 사용을 금지하는지에 대한 글이 실렸다. 이 글에서는 샘플링의 문제로 영가설을 거부하는 결과가 나올 수 있다는 사실을 간단한 시뮬레이션을 통해 보여주고 있다. 그런데 댓글에서도 볼 수 있듯이 효과크기에 대한 이야기들이 많이 빠져 있다. 그래서 효과 크기와 관련된 논문을 찾다가 Using Effect Size—or Why…

March 8, 2015