구글 검색 데이터의 장점과 유의할 점


뉴욕 타임즈에 Searching for Sex라는 기사가 올라왔다. 기사를 쓴 Seth Stephens-Davidowitz는 사회적으로 민감한 질문에서는 사람들이 거짓말을 하기 때문에 신뢰할만한 데이터를 얻기 어렵지만, 구글 검색결과는 새로운 인사이트를 준다고 말한다. 그래서 사회적으로 민감한 성과 관련된 이야기들을 구글 검색결과 데이터를 통해 다루고 있다. 하지만 댄 에리얼리는 성적인것과 관련된 데이터를 해석하는데 있어서 주의가 필요하다는 이야기를 한다.

대부분의 데이터에서 성적인 생각들은 과소추정되는 경향이 있는 반면, 구글에서는 과대추정되는 경향이 있다.

While most data sources underestimate sexual thoughts, he suspects that Google may overestimate them.

또한 구글 데이터를 바탕으로 연구할 때 고려해야할 점들을 이야기한다.

구글은 사람들이 모르거나 추가적인 정보가 필요한 것의 반영이다.

Google is a reflection of what people don’t know and need extra information about

그리고 빅데이터라고 하기에 너무도 적은 데이터라는 사실도 언급하고 있다.

빅 데이터와 관련해서 놀라운 사실은 종종 그것이 매우 적은 수라는 점이다. 많은 사람들은 주어진 구글 검색결과가 수많은 검색결과로 만들어졌을 것을 기대한다. (본문에 포함된) 검색결과를 보고 당신은 생각했을지도 모른다. “저게 다야?”

Another surprising thing about “big data” is how small it often is. Many people expect that any given Google search will be made millions of times. You may look at the accompanying graphic that includes the total monthly search volumes for various phrases and think, “That’s it?”

하지만 사람들이 밝히기 꺼려하는 이야기들을 살펴볼 수 있다는 점에서는 명확한 장점이 있다고 언급하고 있다.