Now Anyone Can Deploy Google’s Troll-Fighting AI by Andy Greenberg, wired.com

구글 자회사 중 하나인 Jigsaw에서 Perspective라고 부르는 코드를 공개했다. 기계학습을 통해 온라인에서 모욕, 욕설, 괴롭힘 관련된 글을 자동으로 탐색한다. 단어 기반으로 탐지했을 때에 비해서 얼마나 오염된 문장인지를 찾아낼 수 있다고 한다.

Google과 Jigsaw는 Wikipedia 편집 토론 댓글, New York Times 및 다른 익명 파트너의 수백만 가지 댓글을 취합하여 측정도구를 개발했다. Jigsaw는 어느 정도로 오염된 말인지 평가하기 위해 온라인으로 모집한 10명의 패널에게 그러한 댓글을 보여주었다. 결과 판단은 마치 어린 아이들이 오프라인에서 폭력적이고 괴롭히는 말의 사례를 통해 배우는 것처럼 Jigsaw와 Google에 기계 학습 모델을 가르치기위한 대규모 예제 세트를 제공했다. Eng

Google and Jigsaw developed that measurement tool by taking millions of comments from Wikipedia editorial discussions, the New York Times and other unnamed partners—five times as much data, Jigsaw says, as when it debuted Conversation AI in September—and then showing every one of those comments to panels of ten people Jigsaw recruited online to state whether they found the comment toxic. The resulting judgements gave Jigsaw and Google a massive set of training examples with which to teach their machine learning model, just as human children are largely taught by example what constitutes abusive language or harassment in the offline world.

하지만 실제로 사이트에 들어가면 영어로 예제 문장들을 확인할 수 있고 직접 욕설을 쳐볼 수도 있다. 영어 욕을 잘 하는 건 아니지만 실제로 문장을 입력하면 100%를 기준으로 어느 정도 오염된 말인지를 결과로 보여주는데 많은 부분이 아직 단어를 통해 판단되는 것처럼 보인다. 우리나라 게임 같은 곳에서 자주 사용되는 부모님 관련 이야기를 넣을 경우 괜찮은 말로 나온다. API의 공개로 인해 더 많은 학습이 가능하기는 하겠지만 온라인에서 표현과 관련되어 논란이 될 수도 있겠다는 생각이 든다. 온라인 욕설이 심각하고 그로 인해 댓글창을 닫는 사이트나 언론사들도 있기 때문에 필요할 수는 있지만 그 자체가 검열이 될 여지도 있다.`