GPT-3 아이디어

OpenAI API

OpenAI에서 새롭게 출시된 머신러닝 도구가 공개되고 나서 많은 사람들이 관심을 보였다. 엄청나게 큰 데이터를 통해 학습한 텍스트 생성 모델이라고 간단하게 설명할 수 있을 것 같다. 나는 열렬한 ML 신봉자는 아니었지만 GPT-3를 보면서 과연 어디까지 어떻게 활용할 수 있을까 생각해보게 된다. ML이 보편적인 기술이 되면서 이 기술을 어떻게 활용할지에 대한 상상력이 더 중요해지는 시기가 오는 것 아닌가. 트위터에서 GPT-3를 사용한 다양한 사례 중 몇 가지를 뽑았다.

By |2020-07-22T12:46:51+09:007월 22nd, 2020|IT|0 댓글

얼굴 기반의 범죄예측 알고리즘

Over 1,000 AI Experts Condemn Racist Algorithms That Claim to Predict Crime

By Janus Rose, Vice

얼굴을 기반으로 범죄여부를 예측하는 알고리즘을 제시하는 연구에 대해 많은 인공지능 전문가가 비판했다는 내용.

이 공개 서한은 하버드, MIT, 구글, 마이크로 소프트의 학계 및 인공 지능 전문가들에 의해 서명되었으며 출판사 스프링거에게 다가오는 논문의 출판을 중단 할 것을 요구했다. 이 논문은“80 %의 정확성”과“인종의 편견이없는”얼굴 사진만으로 범죄를 저지를 지 여부를 저자가 주장 할 수있는 시스템을 설명합니다.eng

The public letter has been signed by academics and AI experts from Harvard, MIT, Google, and Microsoft, and calls on the publishing company Springer to halt the publication of an upcoming paper. The paper describes a system that the authors claim can predict whether someone will commit a crime based solely on a picture of their face, with “80 percent accuracy” and “no racial bias.”

업데이트 한 뉴스에 따르면 네이쳐에 투고한 논문은 게제불가를 받아서 확인할 수는 없지만 가짜 프로필을 만드는데 얼굴이 왜 중요한지에 대해 생각해보다가 떠오른 기사. 하지만 동양에서는 얼굴을 가지고 판단하는 관상이라는 문화가 익숙하지 않은가? 연구와 관계없이 데이터가 있다면 유사한 아이디어로 한 번 시도해보고 싶은 내용이다.

By |2020-07-21T15:31:48+09:007월 21st, 2020|IT|0 댓글

워드 임베딩의 성적 편향 완화

Double Hard-Debias: Tailoring Word Embeddings for Gender Bias Mitigation

 

세일즈포스(salesforce)와 버지니아 대학 연구자들이 제시한 워드 임베딩의 성적 편향을 완화하는 방법에 대한 내용이다.

워드 임베딩은 단어전체에서 단어를 나타내는 실제 숫자로 이루어진 벡터로 단어와 다른 단어의 관계에 대한 의미론적 구문론적인 뜻을 포착할 수 있게 해준다. 자연어 처리 작업에 널리 활용됨에도 코퍼스에 대한 학습과정에서 의도하지 않은 성적인 편견을 물려받는 것으로 인한 비판을 받았다.

예를 들면, 다음의 두 가지 기준(남성과 여성 / 젠더중립과 특정젠더)으로 단어를 분류한다면 우수한(brilliant), 똑똑한(genius)과 같은 단어는 젠더 중립적이고 숙녀(ladies), 여왕(queen) 같은 단어는 특정젠더에 속하는 단어이다.

이와 같은 문제를 알고리즘에 대한 비판으로 접근하는 것과 관련해 사람들이 그러한 방식으로 언어를 사용하기 때문이고, 알고리즘은 이러한 내용을 순수하게 반영하는 것이라는 단순한 실재론에 가까운 입장이었다. 오히려 알고리즘을 의인화하는 방식의 비판에 대해서 부정적이었으나 실제로 이런 학습과 관련된 문제를 적극적으로 교정하는 것이 점차 중요해진다. 예를 들어, 젠더 편견을 가진 시스템으로 이력서 필터링을 하는 경우 어떤 일이 생길 것인가? 이미 비슷한 사례가 많이 제시되었다.

기존 방식은 사후 처리 과정에서 성별 관련 구성 요소를 주성분 요소를 빼서 편견을 줄이는 방식이라고 한다. 하지만 이러한 방식이 가지는 한계는 단어의 빈도로 인해 제거된 젠더편향이 되살아날 수 있다는 점이다. 본 연구에서 제시한 방식은 워드 임베딩을 빈도가 없는 하위 공간으로 전환하는 과정을 거친다는 것이다. 대충 느낌은 오지만 실제로 데이터를 돌려봐야 정확하게 파악할 수 있을 것 같다.

일부 전문가들은 단어 삽입에서 편견을 완전히 제거 할 수 없다고 생각하는 것은 가치가 있습니다. 뮌헨 기술 대학 (Technical University of Munich)의 최근 메타 분석에서, 기고자들은 단어의 의미 론적 내용이 항상 사회의 사회 정치적 맥락에 묶여 있기 때문에 자연적으로 발생하는 중립적 텍스트와 같은 것은 없다고 주장합니다. eng

It’s worth noting that some experts believe bias can’t be fully eliminated from word embeddings. In a recent meta-analysis from the Technical University of Munich, contributors claim there’s “no such thing” as naturally occurring neutral text because the semantic content of words is always bound up with the sociopolitical context of a society.

알고리즘도 현실을 반영하는 하나의 미디어로 결국은 언어와 세상에 관해 어떤 관점을 가져가는지에 대해 고민할 필요가 있다. 완전 중립적이라는 것은 존재하지 않지만 이러한 편향을 줄이는 것이 가지는 의미에 대해 생각해볼 필요가 있지 않을까.

By |2020-07-10T15:33:43+09:007월 10th, 2020|IT|0 댓글

얼굴인식과 인공지능 윤리

Face recognition and the ethics of AI

Benedict Evans

 

얼굴인식 윤리와 관련된 꽤나 긴 글인데 간단히 말하자면 우리가 어떤 것이 좋고 나쁘다고 이야기하기에는 회색 지대가 많다는 내용. 많은 부분 기술이 아니라 사람들이 가지는 인식, 문화, 정치와 관련된 질문에서 비롯한다는 것.

 

좋은 사람이 나쁜 데이터를 활용할 때

출처 : François Chollet

  • 수학은 편향될 수 없지만 데이터는 편향될 수 있다. (The maths can’t be biased but the data can be.)
    예) 피부암을 판별하기 위한 데이터 구성에서 인종간 데이터가 고르게 포함되지 않은 경우

 

나쁜 사람이 좋은 데이터를 활용할 때

  • 경찰이 길 잃은 노인을 식별
  • 계산대에서 고객 식별

이를 판단하기 위해 몇 가지 기준을 사용한다 (누가 수행하는지, 의도적인지, 익명을 보장하는지 등). 이러한 데이터베이스 문제에 대해 이야기하지만 우리는 공항에서 지문 날인이나 범죄자 생체정보 데이터베이스 구축에는 익숙하다. 즉, 무엇이 나쁜지에 대한 합의가 이루어지지 않기 때문에 실제로 나쁜것이 무엇인지 이야기하기 어렵다는 점이다.

 

따라서 해결해야하는 과제는 올바른 수준의 추상성을 획득하는 것이라고 말한다.

By |2019-10-02T13:18:21+09:0010월 2nd, 2019|IT|0 댓글

FTC 데이팅앱 Match 고소

Dating app maker Match sued by FTC for fraud

미연방 무역위원회 (FTA)는 사기 행위를 위해 Match, Tinder, OkCupid, Hinge, PlentyofFish 등을 포함한 거의 모든 데이트 앱의 소유자 인 Match Group을 고소했다고 발표했다. FTC에 따르면 Match는 수십만 명의 소비자를 구독 구매로 속이고 사기의 위험에 고객을 노출 시키며 다른 사기 및 불공정 행위에 관여했다.

FTC에 따르면 대부분의 소비자는 일간 Match 등록의 25 ~ 30 %가 사기꾼으로부터 온다는 것을 알지 못한다고 한다. 여기에는 로맨스 사기, 피싱 사기, 사기 광고 및 강탈 사기가 포함된다. 2013 년부터 2016 년까지 몇 달 동안 Match에서 발생한 커뮤니케이션 중 절반 이상이 회사가 사기로 식별 한 계정에서 비롯되었다.eng

The FTC says that most consumers aren’t aware that 25 to 30% of Match registrations per day come from scammers. This includes romance scams, phishing scams, fraudulent advertising and extortion scams. During some months from 2013 to 2016, more than half the communications taking place on Match were from accounts the company identified as fraudulent.

예를 들면 연결이 되었다는 메시지를 받고 가입을 했는데 실제가 아닌 봇이나 사기계정이었다는 내용이다. 봇과 스캠은 웹 전반에 많은 논란을 불러오고 있지만 Match의 경우는 이를 통해 간접적으로 이익을 얻었기 때문에 문제가 된다고 본 것이다.

By |2019-09-27T13:46:21+09:009월 27th, 2019|IT|0 댓글