Blog

  • 구글이 신뢰성을 기반으로 검색 알고리즘을 바꾸기를 원한다

    Newscientist.com에 올라온 Google wants to rank websites based on facts not links.

    구글 연구팀은 웹에서의 명성보다 페이지의 신뢰성을 측정하는 모델을 적용하고 있다. 피인용 링크 숫자를 계산하는 대신에, 시스템은 페이지 내 불확실한 정보의 숫자를 센다. “오류가 적은 자료가 신뢰성이 있는 것으로 여겨진다”라고 연구팀은 말했다.

    A Google research team is adapting that model to measure the trustworthiness of a page, rather than its reputation across the web. Instead of counting incoming links, the system – which is not yet live – counts the number of incorrect facts within a page. “A source that has few false facts is considered to be trustworthy,” says the team

    페이지가 얼마나 인용되는지에 따라 검색결과를 보여주는 페이지 링크 방식은 예전 웹 환경에 적합할 수 있겠다는 생각이 든다. 개인적인 느낌일 뿐이지만 예전에 사용하던 웹과 현재 웹은 분위기가 많이 다르다. 어쨌든 내용에 오류가 많더라도 다른 곳에서 링크를 충분히 걸어준다면 상위로 올라갈 수도 있는 것이다. Knowledge-Based Trust score를 적용한다고 하는데 생각해보면 기술이 발전하는 속도가 엄청나게 빠르다는 생각이 든다.

  • 삼성 페이가 가지는 장점에 대한 글

    gigaom에 올라온 Samsung Pay has all the tools it needs to surpass Apple Pay라는 글이다.

    만약 삼성 페이가 올 여름에 성공적으로 출시된다면, 삼성은 여러가지 면에서 애플 페이의 라이벌이 될 수 있는 주목 할 만한 모바일 지갑 서비스를 가지게 될 것이다. 그러나 미국에서만 그러한 장점을 오랫동안 가질 수 있을 것이다. 상점들이 결제 터미널을 EMV[1]로 업그레이드함에 따라, 그들은 또한 NFC를 지원하기 위한 업그레이들을 할 것이다. 2년 이내에, NFC 거래는 예외가 아닌 일반적인 것이 될 것이다.

    If Samsung Pay launches with a bang this summer, Samsung will have a compelling mobile wallet that can rival Apple Pay in many ways, but it will only have that advantage for so long, especially in the U.S. As merchants upgrade their payment terminals for EMV, they’re also upgrading them to support NFC. Within a year or two, NFC transactions could become the norm rather than the exception.

    결제 플랫폼이 빠르게 바뀌지 않기 때문에 삼성이 두 가지 결제 방식을 모두 지원한다는 사실이 장점이 될 수 있을 것이라고 본다. 기사 내용에 나오듯이 여러 은행들과 파트너십을 통해 생태계를 이루려는 것도 큰 장점이 될 것이다. 개인적으로 애플 제품을 좋아하지만 맥북, 아이패드, 아이폰으로 연결되는 기능들이 편리해서 사용한다. 어차피 나는 쓰지 않을테지만 만약에 단 하나의 디바이스만 사용해야 한다면 갤럭시를 쓰는 것도 나쁘지 않을 수 있겠다 하는 생각이 든다.


    1. 암호화 된 데이터를 결제 터미널에 보내기 위해 스마트칩을 사용하는 방식  ↩

  • 여러가지 자동화 서비스들을 쓰면서 드는 생각들

    최근 맥에서 사용하는 Alfred가 세일하길래 충동적으로 구매했다. 간단하게 키보드 입력을 통해서 지정해놓은 워크플로우를 실행시킬 수 있는 프로그램이다. iOS의 경우에도 비슷한 프로그램들이 있다. 성격은 각각 조금씩 다르지만 Drafts, Workflow, Launch Center Pro 등이 비슷한 컨셉을 가지고 있다.

    개인적으로는 이런식으로 워크플로우를 만들고 자동화하면서 뿌듯해할수록 Geek에 가까워진다는 느낌이 드는데 온라인에도 이런 유사한 서비스가 있다. IFTTT (If This Then That)라는 서비스인데 간단하게 자동화 된 워크플로우를 만들어준다. 개인적으로는 유명하고 많은 사람들이 사용할 것이라고 생각했는데 주말에 간 세미나에서 사용해 본 적이 있냐는 질문에 나를 포함해서 딱 두 명이 손을 들었다. 나는 Feedly와 Evernote를 연동해서 사용하려다가 현재는 사용하지 않고 있다.

    IFTTT는 지난해 300억 정도 펀딩을 받았다. 다양한 서비스들 (채널)을 연결해주는 역할을 수행하지만 비즈니스모델이 없는 것을 생각해보면 놀라운 일이다. 하지만 연결되는 서비스는 점점 늘어나고 이용할 수 있는 방식은 무궁무진해지고 있다.

  • 심리학 저널에서 p-value를 금지하다

    심리학 저널 중 하나인 Basic and Applied Social Psychology에서 앞으로 영가설을 통한 유의성 검증을 퇴출시키겠다는 사설을 실었다. 그리고 이와 관련된 기사가 nature에도 실렸다 (Psychology journal bans P values). 사실 나도 제대로 알면서 사용한 것도 아니었지만 최근에 이 문제에 대해 알게되고 관심을 가져왔다.

    최근 통계의 역사와 관련된 서적들을 살펴보면서 교과서에서 배우는 기계적인 가설검정방식이 과연 어떤 의미를 가지는지에 대해서 생각해보게 되었다. 과연 가설검정을 통해 나온 결과는 어떻게 해석되어야 하는지, 실제로 어떤 효과를 가지는지에 대해서 생각해보았을 때 선뜻 답을 하기 힘든 문제이다.

    우선 영가설을 통한 가설검정방식이 어떤 문제를 가지는지에 대해서는 정리된 국내논문 한 편을 찾았다 (Review on Problem with Null Hypothesis Significance Testing in Dental Research and Its Alternatives). 가설검정방식의 문제에 대해서는 주로 의학분야에서 많이 찾아볼 수 있다. 만약 새로운 신약의 효과를 검증하려고 할 때 유의확률을 어떻게 볼 것인지 일반적인 사회과학에서의 연구와 다르다고 생각한다. 위 논문에서 시작부분에 인용하고 있는 사례이다.

    2011년 3월, 미국 대법원은 오랜 심의 끝에 임상시험의 결과가 통계적으로 유의(significant)하지 않더라도 여전히 중요(important)할 수 있다고 판결하였다. 제약회사 Matrixx Initiatives는 처방전 없이 살 수 있는 약인 Zicam이 후각상실을 일으키는 부작용이 있지만 그 발생빈도가 통계적 유의수준에 미치지 않았기 때문에 이 부작용을 알릴 이유가 없었다고 주장하였으나 대법원은 그 주장을 기각하였다. ‘Matrixx Initiatives사 대 Siracusano’로 알려진 이 사건은 통계학자들 의 논평과 함께 언론에 보도되었다.

    통계값을 표기하는 방법과 검정방식이 기계적으로 쓰이고 오용되고 있는데서 발생하는 문제들이 많다. 우선은 통계값을 표기할 때 사람들이 어떻게 이해하는가? 이에 대해 기거렌처의 책[1]에서 쓴 사례가 있다.

    이 여성들 가운데 유방암이 있을 확률은 0.8%다. 만일 어떤 여성이 유방암에 걸렸을 경우 유방촬영술 양성이 나올 확률은 90%다. 만일 어떤 여성이 유방암에 걸리지 않았더라도 유방촬영술 양성이 나올 확률은 7%다. 이제 한 여성이 유방촬영술 양성이 나왔다고 가정하자. 실제로 유방암에 걸렸을 확률은 얼마인가?

    과연 이 문장을 보고 확률적 추론을 할 수 있는 사람이 얼마나 될까. 다음의 글을 보면 조금 더 쉽게 이해할 수 있다.

    1000명 중 8명의 여성이 유방암에 걸린다. 이 8명 중 7명은 유방촬영술 양성이 나올 것이다. 유방암에 걸리지 않은 992명의 여성 중 70명에서도 유방촬영술 양성이 나올것이다. 이제 검진 결과 유방촬영술 양성이 나온 여성만 고려해보자. 이중, 실제로 얼마나 많은 여성이 유방암에 걸렸는가?

    표기방식의 변화만으로도 수치등에 대한 이해가 훨씬 쉬워진다. 이번 Basic and Applied Social Psychology 사설에서도 논문 상 p-value를 표기해도 되지만 모두 지우고 출판될 것이며, 되도록이면 많은 샘플을 이용하고 기술통계량 외에 effect size에 대한 부분이 포함되어야 함을 말하고 있다.

    개인적으로 내가 있는 분야는 시스템의 개선부분이 있다면 적용이 어렵지 않고 잘못된 이용으로 인한 부작용도 크지 않기에 통계가 가지는 의미에 대해 깊이 고려하지 않는게 아닐까 하는 생각이 든다. 하지만 내가 하고 있는 연구들이 실제로 어떤 의미를 가지는지 고민한다면 이런 문제에 관심을 가질 필요가 있을것이라고 본다.


    1. 숫자에 속아 위험한 선택을 하는 사람들  ↩

  • 마케팅은 죽었다

    HBR에 올라온 Alexander Jutkowitz의 Marketing Is Dead, and Loyalty Killed It라는 글이다.

    당신은 최고 마케팅 담당자가 되기 위해 직장의 사다리를 차근차근 밟아 올라가왔다. 스스로를 격려해라. 당신은 그럴 자격이 있다. 다 되었는가? 좋다. 이제 나의 애도를 받아들여라. 당신의 직업은 쓸모없고, 당신의 직업을 최고 로얄티 담당자로 바꾸지 않는 한 당신은 점차 대체될 것입니다.

    So, you’ve worked your way up the corporate ladder to become Chief Marketing Officer. Pat yourself on the back – you deserve it! All done? Good. Now, please accept my condolences. Your job is obsolete, and unless you turn yourself into a Chief Loyalty Officer, you’re sure to eventually be replaced by one.

    제목에서 이야기하는 것처럼 마케팅은 죽었고, 로얄티가 마케팅을 죽였다는 말이다. 애플의 성공 사례를 들면서 이야기를 하고 있는데, 마케팅은 상품을 파는데만 초점을 맞춘다. 하지만 소셜 미디어는 소비자들에게 메가폰을 쥐어주었고 전통적인 마케팅만큼이나 강력한 것이다. 모든 기업들이 애플처럼 될 수는 없을 것이다. 애플은 종교니까. 하지만 최근에 스타트업들을 비롯해서 제품 자체에 초점을 맞추는 경향이 많아지는 것 같다.

  • 트위터를 삭제하는 사람들

    트윗을 남긴 이후에 삭제를 하는 사람들이 있다. 트위터를 하다보면 흔하게 볼 수 있는 경우다. Meet the tweet-deleters: people who are making their Twitter histories self-destruct에서 이런 사람들에 대한 이야기를 다루고 있다.

    초기에 트위터는 스쳐가는 생각을 담는 그릇으로 생각되었다. 사람들은 그들의 점심, 스포츠 팀, 그날의 뉴스 등에 대한 이야기를 올렸다. 그러나 트윗이 공적이고 영구적인 것이기 때문에, 짧은 기간동안 지속되는 트윗도 전 세계적인 영구적인 기록에 포함되게 되었다. 이제 2억8800만 이용자들이 올리는 모든 트윗들이 검색가능하고 색인가능하며 법정 혹은 여론이라는 법정에서 그들에 반대되어 사용될 수 있다.

    In the beginning, Twitter was supposed to be a vessel for fleeting thoughts. People posted about their lunches, their sports teams, the news of the day. But because tweets are public and permanent by default, all of those ephemeral tweets congealed over the years into a kind of global permanent record. Now, everything the vast majority of Twitter’s 288 million monthly active users have ever tweeted is searchable, indexable, and usable against them in courts of law or public opinion.

    트위터에 글을 쓰고 흑역사라고 생각하는건 누구나 다르지 않은가보다. 대부분의 사람들이 흑역사로부터 자신을 보호하기 위해 지우지만, 트위터의 상태가 자신의 현재 상태를 반영하기를 원해서 지우는 사람들도 있다.

    조시 밀러는 7일 후에 트윗을 삭제하는 코드를 작성했다. 그는 트윗삭제를 트위터를 다른 형태의 대화처럼 만들기 위한 것으로 표현했다.

    “내 의견은 머릿속에서 영원하지 않고 (나는 종종 시간이 지나면서 마음을 바꾸기도 한다), 저녁 식사 자리에서 이야기할 때 영원하지도 않다 (누구도 우리 대화를 기록하지 않는다).” 밀러는 이메일에서 말했다. “그래서 온라인에서 그것들이 영원히 지속된다는게 말이 안 된다고 생각한다.”

    Josh Miller, a product manager at Facebook, wrote a piece of code that deleted his tweets after seven days. He frames his tweet-deleting as a decision to make Twitter more like other forms of conversation.

    “My opinions aren’t permanent in my head (I often change my mind over time), and they’re not permanent when shared around the dinner table (nobody is recording our conversations),” Miller wrote in an e-mail. “So it just doesn’t make sense to me that they would be permanent online.”

    여러가지로 문제가 많음에도 사람들은 SNS에 무엇인가를 남기기를 원한다.

  • 에어로프레스 타이머

    아마존으로 핸드밀을 하나 구입하는김에 에어로프레스도 함께 주문했다. 국내에서 5만원정도에 판매하고 있지만 아마존에서는 $25.99에 판매중이다. 에어로프레스만 산다면 별 가격 차이가 없겠지만 핸드밀을 사는 김에 함께 주문했다. 사실 예전부터 한 번 마셔보고 싶다는 생각은 했다. 일반적인 드립커피나 프렌치프레스와는 맛이 어떻게 다를지 궁금했다. 에어로프레스는 커피를 내리는 방법이 꽤나 다양하다. 커피의 미분정도, 추출시간, 추출 방향 등에 따라 여러가지 다양한 레시피가 존재한다.

    에어로프레스를 구매한 김에 에어로프레스 타이머 앱도 함께 구매했다. 앱 스토어에는 다양한 커피 관련 타이머 앱들이 있다. CoffeeTime, Aeropress Timer, Press Coffee. 그 중에서 구매한 건 에어로프레스 타이머이다. 타이머 기능을 하기도 하지만 챔피언십 레시피를 포함해서 다양한 레시피를 제공한다. $2.99에 구매하면 챔피언십 팩은 무료, 로스터스 팩은 $1.99에 추가로 구매해야 한다.

    에어로프레스 레시피는 온라인에 검색하면 찾을 수 있고 시간이야 적당히 생각하며 할 수도 있는 거지만 커피를 자주 마시게 된다면 앱 하나로 해결할 수 있다는 점이 편리할 것 같다. 그리고 디자인도 깔끔하고 나름 괜찮아보인다.

  • 사람들은 루머가 사실인지 아닌지 신경쓰지 않는다.

    온라인에 공유되는 콘텐츠와 관련해서 사람들이 그게 사실인지 아닌지 신경쓰지 않는다는 제목의 기사를 읽었다 (The viral content problem: Many people don’t care whether it’s true). 콜럼비아 대학 토우센터에서 Craig Silverman이 한 연구에 대한 내용을 다루고 있다. 보고서는 여기에서 받아볼 수 있다.

    보고서에서 다루고 있는 내용은 뉴스 웹사이트들이 온라인 루머가 사실인지 확인하는것에 비해 많은 시간과 자원을 의문스럽거나 잘못된 정보를 확산시키는데 투자하고 있다는 사실이다. 트래픽을 늘리거나 사람들의 참여를 촉진시키기 위해 온라인 미디어들은 종종 잘못된 정보를 퍼뜨린다. 그리고 사람들도 이러한 뉴스를 공유한다.

    대다수의 사람들은 리포트가 사실인지 아닌지 신경쓰지 않는다. 어쨌든 그들은 그것을 공유할 것이다. 왜냐하면 그것이 재미있거나, 감동적이거나, 기이하거나, 충격적이기 때문이다. 다른 말로 사람 감정의 어떤 것을 촉발시킨다.

    …the vast majority of people simply don’t care whether a report is true or not. They are going to share it anyway, because it is funny, or touching, or creepy, or disturbing. In other words, it sparks some kind of human emotion.

  • 과연 대학이 미래에도 존재할 수 있을까?

    과연 대학이 미래에도 존재할 수 있을 것인가? 무료 온라인 강의들은 전통적인 4년제 대학을 곧바로 대체하지는 못할 것이다. 그러나 새로운 경력을 위해 기술을 익히려는 구직자들 사이에서 꾸준히 입지를 강화하고 있다. coursera 같은 온라인 교육 플랫폼이 어떻게 학생들을 기술 기업들과 연결시켜 주는지에 대한 기사가 실렸다.

    플랫폼에서는 몇 가지 과목들을 묶어서 작은 전공과 같은 코스를 제공하며, 학생들은 최종 프로젝트를 통해 무엇을 배웠는지를 증명하고 자격증을 받을 수 있다. 이러한 최종 프로젝트에 구글이나 인스타그램 같은 기업들이 참여한다.

    구글이나 인스타그램같은 기업들이 이러한 프로그램에 자신의 시간을 투자하고 있다는 것은 여러가지 면에서 Coresera, Udacity, edX 같은 회사가 구직자들에게 만들고 있는 약속의 검증이다. 원래는 4년제 교육에 대한 대안으로 시작된 대규모 오픈 온라인 교육과정 (MOOC)들이 직업 교육으로 시선을 돌리기 지가했고, 기업들은 이를 고려하기 시작했다.

    That companies like Google and Instagram are investing their time in a program like this is, in many ways, a validation of the promise that companies like Coursera, Udacity, and edX are making to job seekers. Originally founded as free alternatives to standard four-year education, all of these providers of so-called massively open online courses, or MOOCs, have turned their attention toward job training in recent years, and companies are starting to take notice.

    대학 교육의 존재 의미가 취업률에 달려있다면 대학이 무너지는 날도 머지 않았다.

  • 우리가 볼 수 있는 인터넷

    우리가 볼 수 있는 인터넷은 전체 인터넷의 어느 정도나 될까. 예전 야후에서 카테고리별로 검색을 제공하던 것과 현재를 비교해서 생각해보면 당연히 웹 페이지들의 대부분을 볼 수 있을 것이라고 생각했었는데 DARPA에서 다크 웹(dark web)을 검색할 수 있는 검색엔진을 개발중이라는 기사에 다음과 같은 이야기가 나왔다.

    인기도와 순위에 따른 검색결과를 제공하는 구글과 빙 같은 경우 전체 인터넷의 약 5% 정도밖에 제공하지 못한다. Memex의 목표는 좀 더 나은 인터넷 콘텐츠의 맵을 만드는 것이다.

    Google and Bing, with search results influenced by popularity and ranking, are only able to capture approximately five percent of the internet. The goal of Memex is to build a better map of more internet content.

    다크 웹은 일반적인 검색엔진으로는 드러나지 않는 웹 콘텐츠를 지칭한다. 이러한 온라인 데이터들의 패턴과 관계를 밝혀서 불법행위들을 추적하는데 도움이 되게 하는 것이 목표라고 한다.

    구글에서 개인 검색결과를 기반으로 맞춤형 검색결과를 제공한다는 것까지 고려해보면 전체 인터넷에서 얼마나 적은 부분만을 볼 수 있는지 생각해보게 된다.