Blog

  • Python R vs. SAS STATA

    Python & R vs. SPSS & SAS By Jeroen Kromme, www.r-bloggers.com

    SAS, SPSS, R, Python의 장단점에 대해 이야기한 글이다. 몇 가지 부분에서 SAS & SPSS와 Python & R의 장단점을 비교하고 있다. SAS와 SPSS는 아카데미 환경에서 발전했고 가설검증에 초점을 맞추고 있다. 다른 분석에도 쓰일 수 있으나 추가 라이센스가 필요하다. 반면에 Python, R의 장점은 오픈소스이고 계속해서 기능들이 추가되고 있다는 점이다. Python, R의 단점으로는 코딩에 익숙하지 않은 사람들이 초반에 진입하기에 학습이 많이 필요하다는 점이다.

    나는 STATA를 쓰고 있는데 문서로 결과를 내는 과정까지 생각하면 Python이나 R 중 하나로 통일해서 쓰는게 낫지 않을까 하는 생각도 든다.

  • 엑셀 복사 후 클립보드에서 R로 불러오기

    대충 엑셀에서 확인해도 상관없지만 간단하게 R에서 확인해보고 싶은 것들이 있는 경우가 가끔 있다. R에서 불러오는게 귀찮거나 굳이 전체 파일을 다 불러오지 않아도 되는 경우 필요한 부분만 엑셀에서 복사한 후 R로 불러올 수 있다.

    read.excel <- function(header=TRUE,...) {
      read.table("clipboard",sep="t",header=header,...)
    }
    dat=read.excel()

    Mac에서는 오류가 난다

    Error in file(file, "rt") : X11 module cannot be loaded
    In addition: Warning message:
    In file(file, "rt") :
      unable to load shared object '/Library/Frameworks/R.framework/Resources/modules//R_X11.so':
      dlopen(/Library/Frameworks/R.framework/Resources/modules//R_X11.so, 6): Library not loaded: /opt/X11/lib/libSM.6.dylib
      Referenced from: /Library/Frameworks/R.framework/Resources/modules//R_X11.so
      Reason: image not found

    X11 모듈을 설치하면 해결된다고는 한다. (참고: Mac용 X11에 관하여) 아래 코드처럼 쓰면 맥에서도 따로 설치 없이 불러올 수 있다.

    read.excel <- function(header=TRUE,...) {
      read.table(pipe("clipboard",sep="t",header=header,...)
    }
    dat=read.excel()
  • 왜 사람들은 뉴스기사를 클릭하는가

    Why we click on news stories

    뉴스 기사 클릭 연구에 대한 기사. 논문은 Journalism에 나온 What clicks actually mean: Exploring digital news user practices라는 제목이다. 연구 방법으로는 실험 참가자들에게 실제로 뉴스 기사 브라우징을 하게 만들면서 든 생각을 계속 말하게 하고 이를 관찰하는 방식으로 진행한 것 같다. 뉴스 클릭 이유는 인지, 정서, 실용 세 가지 차원으로 나누어 제시했다.

    인지적 차원은 최신성, 중요성, 개인관련성, 지리적 근접성, 문화적 근접성, 놀라움, 호기심, 대화참여, 의견 확인, 참여적 성격 등 20가지를 제시했다. 여러가지 요인이 있으나 개인적인 관련성이나 사회적인 유용성으로 볼 수 있는 내용들이다. 정서적 차원에서는 헤드라인과 같은 레이아웃이나 디자인이 클릭에 영향을 미친다는 것을 이야기한다. 실용적 차원에서는 사람들이 왜 클릭하지 않는지에 대한 이유를 설명한다. 사용자 경험이 중단된다든지 데이터가 사용된다든지 하는 이유이다. 연구에서 언급하고 있기도 하지만 사용자의 관심이라는 것을 측정하는데 있어서 클릭이라는 행위가 꼭 좋은 지표는 아니다.

    2015년 Digital Journalism에 나온 Checking, Sharing, Clicking and Linking에서는 16가지 뉴스 이용 패턴을 이야기한다. 최근 내가 참여한 프로젝트에서 했던 설문을 생각해보면 뉴스를 빠르고 간략하게 확인한다는 사람들보다 뉴스를 클릭한다는 행위를 하는 사람들의 평균이 약간 낮다. 통게적으로 비교해본 것은 아니지만 여러 뉴스 이용 행위에 대한 질문들에서 빠르고 간략하게 뉴스를 확인한다는 문항이 가장 높은 값을 보였다.

  • QR 코드 보안

    Thieves are pickpocketing wallet apps in China

    중국에서 다양한 방면에 사용되는 QR 코드가 보안에 취약하다는 기사이다. 광동성 광저우에서 약 9천만 위안 (약 150억 원) 가량이 QR 코드 사기로 사람들에게 손실을 입혔을 것으로 에상된다는 기사가 있었다.

    차이나 데일리는 “일부 범죄자들은 불법적으로 돈을 벌기 위해 원래 QR코드 위에 자신의 QR코드를 붙인다. 일반 소비자들은 그 차이를 알 수 없기 때문이다.”라고 말했다. “QR 코드가 사기에 사용되는 것을 막기 어려운 이유이며, 기업들이 보안에 대한 책임을 분담해야 하는 이유입니다”[expand title=Eng]
    “Some criminals paste their own QR codes over the original ones to illicitly obtain money, as ordinary consumers simply cannot tell the difference,” wrote China Daily, a state-owned English media site, in an op-ed. “That is why we are powerless to prevent QR codes from being used for fraudulent activities, and that is precisely why the enterprises using QR codes should assume their share of the responsibility for protection.”[/expand]

    코드가 보안적으로 안전하지 않으며 쉽게 조작될 수 있다. 그리고 눈으로는 해당 코드가 검증되었는지 확인이 불가능하다. QR 코드를 통해 핸드폰에 바이러스를 감염시켜 모바일 지갑에서 돈을 빼가는 방식으로 사용되기도 한다. 위챗 페이와 알리페이는 보안을 강화한 업데이트를 도입했다는 이야기도 있다.

  • 확률통계에 대한 이론 시각화

    Seeing Theory

    통계와 관련된 이론을 시각화를 통해 직관적으로 이해하게 해주는 사이트.

    Seeing Theory는 Brown University의 Royce Fellowship Program 과 National Science Foundation group STATS4STEM의 지원을 받아 Daniel Kunin이 디자인하고 만든 프로젝트입니다.

  • 아마존 제휴 수익과 저널리즘 비즈니스

    Amazon just provided a nice little reminder of why it’s risky to build a journalism business on affiliate fees By Laura Hazard Owen, www.niemanlab.org

    NYT가 Wirecutter와 Sweethome을 인수했을 때 제휴 기반 수익모델이 대단한 것이라는 글도 있었다. 요지는 기존에 보기 힘든 방식으로 수익을 올린 사이트를 만들어냈다는 점이다.

    1. 광고주나 투자자 도움 없이 자신의 힘만으로 스스로의 제국을 건설했다.
    2. 기존에 잘 알려지지 않은 방식으로 수익을 창출하는 사이트를 만들었다.
    3. 기자나 편집자가 가능한 자주 퍼블리싱해야 한다는 압력을 느낄 필요 없이 자신의 방식에 따라 사이트를 만들었다.
    4. 많은 사람들이 모방하는 사이트를 만들었으나 누구도 필적하지 못했다.
    5. 사이트는 독자와 기자 사이 신뢰때문에 작동한다. 그리고 편집자들이 창간 이래로 순수함을 유지하기 위해 노력해왔기에 작동한다.
    6. 테크 허브인 샌프란시스코와 뉴욕에서 떨어진 곳에서 작업을 했고, 그곳에서 그는 거의 매일 인터넷 서핑을 한다.
      [expand title=Eng]
      He single-handedly built his own empire without having to cater to advertisers or investors.
      He built a site that made revenue in a way that was previously uncharted.
      He built it according to his own rules, without needing to pressure writers and editors to publish as often as possible.
      He built a brand and a site that launched many copycats but no one ever matched it.
      His sites work thanks to trust built up between readers and writers, and it works because editors help maintain integrity since the day it launched.
      He did it all in a place far, far from the tech hubs of SF and NYC, in Honolulu. Where he gets to surf almost daily.[/expand]

    제휴수익에 기반한 모델이 낮설다고는 하지만 블로그가 활성화되던 초기 우리나라에서도 많이 있던 형식의 비즈니스 모델이다. 내 친구만 해도 리뷰사이트를 운영하면서 한 달 용돈정도는 번다는 이야기를 했던 기억이 난다. 하지만 제휴기반의 수익모델은 페이스북이나 구글과 같은 특정 기업이 한 산업분야를 독점하는 경우 안정적이지 않은 선택일 수 있다. 아마존은 특정 카테고리에서 제휴 수익 프로그램을 덜 관대하게 운영할 것이라는 발표를 했다. 아래는 해커 뉴스 토론에 달린 댓글이다.

    어쨌든 아마존은 사람들이 물건을 구입하는 1위 사이트이기 때문에 제휴 링크가 아마존에서 사람들이 무언가를 사게 만드는데 미치는 영향력이 점점 약해지고 있다는 점이다. 내가 Wirecutter에서 무언가를 읽고 그것을 구입하기로 결정했다면 Amazon에 링크가 있는지 여부와 상관없이 Amazon에서 구매할 것이다. 아마존은 이것을 알고 있으며, 특정 카테고리의 온라인 판매가 지배적이 되기 시작한다면 제휴 수수료를 떨어뜨릴 수 있다.[expand title=Eng] The problem with that goal is that affiliate links are having less and less of an impact on convincing people to buy from Amazon, because Amazon is becoming the #1 place where people buy things anyway. If I read about something on the Wirecutter and I decided to buy it, I will buy it on Amazon whether or not they have a link to Amazon. Amazon knows this, and as they begin to dominate online sales in a certain category they can afford to drop their affiliate commissions knowing full well that it won’t really impact their sales.[/expand]

    Brain Lam이 만든 사이트가 왜 놀라운 것인지에 대한 글을 다시 읽어보면 5번째 독자와의 신뢰라는 언급이 있다. 결국은 독자와 어떤 관계를 맺는지가 중요하다. 제휴 기반 모델은 사실 새롭지 않다. 언론사에서 이런걸 하는 것이 이상하다고 생각했기에 새로운 것처럼 보이는 것 아닌가.

  • 싫어하는 것 기반 데이팅 앱

    Hater, an app for finding someone who dislikes the same things as you, to expand beyond dating
    by Sarah Perez, techcrunch.com

    어제 결혼한 사람들과 대화를 나누다가 배우자의 싫어하는 행동에 대한 이야기가 나왔는데 좋아하는게 같은 사람보다 싫어하는 것들이 서로 엇갈리지 않는 사람을 만나는게 중요하지 않을까 생각했다. 기사내에서도 Interpersonal chemistry through negativity: Bonding by sharing negative attitudes about others라는 논문을 소개하고 있다. 유사하게는 공동의 적을 만드는 것이 집단 결속을 강화시킨다는 이론들도 있다.

    Hater는 (사진을 보여주는 다른 서비스들과 다르게) 가중치를 측정하기 위한 일련의 주제들을 제공한다. 현재 3,000개 주제가 앱에서 제공되며 지속적으로 추가된다. 주제에 대해 얼마나 강하게 동의하는지에 따라 좋아하거나 싫어하거나 사랑하거나 싫어하는지 표시한다. Hater의 매칭 알고리즘에서 싫어하거나 싫어하는 항목에 더 많은 가중치가 주어진다.[expand title=Eng]
    Hater, on the other hand, kicks off not by showcasing a stream of people’s photos, but rather a series of topics to weigh in on. There are now around 3,000 topics available in the app, with more added on a continual basis. You swipe on the topics in order to like, dislike, love or hate them, depending on how strongly you feel about the subject. Items you dislike or hate are given more weight in Hater’s matching algorithms, the founder notes.[/expand]

  • 페이스북 내부의 인공지능 머신

    Inside Facebook’s AI Machine
    by Steven Levy, backchannel.com

    페이스북 Applied Machine Learning(AML)의 Joaquin Quiñonero Candela를 만나 페이스북 내부에서 머신러닝과 인공지능이 차지하고 있는 위상과 역할에 대해 쓴 취재기사다.

    “오늘날 페이스북은 AI 없이 존재할 수 없다. 사람들이 페이스북, 인스타그램, 메신저를 사용할 때마다, 사람들은 깨닫지 못하지만 사람들의 경험은 AI에 의해 강화되고 있다.”[expand title=Eng]
    “Facebook today cannot exist without AI. Every time you use Facebook or Instagram or Messenger, you may not realize it, but your experiences are being powered by AI.”[/expand]

    페이스북에서 유명한 곳은 뉴럴 네트워크 전문가 Yann LeCun이 이끄는 Facebook Artificial Intelligence Research group (FAIR)이지만 AML은 이를 실제 서비스와 상품에 적용하고 통합하는 일을 수행한다. 초기 Candela는 페이스북에서 관련성 높은 광고를 보여주는 작업을 수행했으나 당시 사용했던 모델은 별로 발전된 것은 아니었다고 말했다.

    Candela는 네 가지 영역으로 AI의 적용을 구분했다: 시각, 언어, 담화, 카메라 효과. 각 모두는 “콘텐츠 이해 엔진”으로 연결될 것이다. 콘텐츠가 의미하는 바를 실제로 파악함으로써 페이스북은 댓글의 미묘한 의도를 탐지하고 사람들 발언의 뉘앙스를 추출하고 비디오에서 빠르게 지나가는 친구의 얼굴을 인식하고 당신의 표정을 해석하는 것을 목적으로 한며 각각을 가상 현실 세션의 아바타에 연결시킬 것이다.[expand title=Eng]
    Candela breaks down the applications of AI in four areas: vision, language, speech, and camera effects. All of those, he says, will lead to a “content understanding engine.” By figuring out how to actually know what content means, Facebook intends to detect subtle intent from comments, extract nuance from the spoken word, identify faces of your friends that fleetingly appear in videos, and interpret your expressions and map them onto avatars in virtual reality sessions.[/expand]

    마지막 부분 페이크 뉴스에 대한 해결을 이야기하며 언급하는 부분이 스스로를 ML person이라고 소개하는 사람의 생각을 보여준다고 생각한다.

    But whether or not those new measures work, the quandary itself raises the question of whether an algorithmic approach to solving problems — even one enhanced by machine learning — might inevitably have unintended and even harmful consequences. Certainly some people contend that this happened in 2016.
    Candela rejects that argument. “I think that we’ve made the world a much better place,”

  • 온라인 정치활동 관련 신조어

    Oxford Dictionaries add ‘clicktivism’ and ‘haterade’ as new words for angry times
    by Danuta Kean, theguardian.com

    트럼프 당선 이후 온라인 정치행위와 관련하여 새로운 단어들이 옥스포드 사전에 추가되었다는 기사

    “clicktivism”(소셜 미디어에서만 행동하는 사람에 대한 경멸적인 말), “haterade”(과도한 부정적, 비판, 또는 분개), “otherize”(사람 또는 집단을 본질적으로 다른 상종못할 상대로 바라보거나 다루는 것), “herd mentality”(사람들의 행동이나 신념이 자신이 속한 집단을 따르는 경향). Andusen Stevenson은 “2016 년 백악관에서의 전투에서 모든 단어들이 발생했다고 말했다.[expand title=Eng]
    Additions including “clicktivism” (a pejorative word for armchair activists on social media), “haterade” (excessive negativity, criticism, or resentment), “otherize” (view or treat – a person or group of people – as intrinsically different from and alien to oneself) and “herd mentality” (the tendency for people’s behaviour or beliefs to conform to those of the group to which they belong) all emerged during the 2016 battle for the White House, said head of content development Angus Stevenson.[/expand]

  • 구글 악성댓글 API

    Now Anyone Can Deploy Google’s Troll-Fighting AI by Andy Greenberg, wired.com

    구글 자회사 중 하나인 Jigsaw에서 Perspective라고 부르는 코드를 공개했다. 기계학습을 통해 온라인에서 모욕, 욕설, 괴롭힘 관련된 글을 자동으로 탐색한다. 단어 기반으로 탐지했을 때에 비해서 얼마나 오염된 문장인지를 찾아낼 수 있다고 한다.

    Google과 Jigsaw는 Wikipedia 편집 토론 댓글, New York Times 및 다른 익명 파트너의 수백만 가지 댓글을 취합하여 측정도구를 개발했다. Jigsaw는 어느 정도로 오염된 말인지 평가하기 위해 온라인으로 모집한 10명의 패널에게 그러한 댓글을 보여주었다. 결과 판단은 마치 어린 아이들이 오프라인에서 폭력적이고 괴롭히는 말의 사례를 통해 배우는 것처럼 Jigsaw와 Google에 기계 학습 모델을 가르치기위한 대규모 예제 세트를 제공했다. [expand title=Eng] Google and Jigsaw developed that measurement tool by taking millions of comments from Wikipedia editorial discussions, the New York Times and other unnamed partners—five times as much data, Jigsaw says, as when it debuted Conversation AI in September—and then showing every one of those comments to panels of ten people Jigsaw recruited online to state whether they found the comment toxic. The resulting judgements gave Jigsaw and Google a massive set of training examples with which to teach their machine learning model, just as human children are largely taught by example what constitutes abusive language or harassment in the offline world. [/expand]

    하지만 실제로 사이트에 들어가면 영어로 예제 문장들을 확인할 수 있고 직접 욕설을 쳐볼 수도 있다. 영어 욕을 잘 하는 건 아니지만 실제로 문장을 입력하면 100%를 기준으로 어느 정도 오염된 말인지를 결과로 보여주는데 많은 부분이 아직 단어를 통해 판단되는 것처럼 보인다. 우리나라 게임 같은 곳에서 자주 사용되는 부모님 관련 이야기를 넣을 경우 괜찮은 말로 나온다. API의 공개로 인해 더 많은 학습이 가능하기는 하겠지만 온라인에서 표현과 관련되어 논란이 될 수도 있겠다는 생각이 든다. 온라인 욕설이 심각하고 그로 인해 댓글창을 닫는 사이트나 언론사들도 있기 때문에 필요할 수는 있지만 그 자체가 검열이 될 여지도 있다. `