GPT-3 아이디어

OpenAI API

OpenAI에서 새롭게 출시된 머신러닝 도구가 공개되고 나서 많은 사람들이 관심을 보였다. 엄청나게 큰 데이터를 통해 학습한 텍스트 생성 모델이라고 간단하게 설명할 수 있을 것 같다. 나는 열렬한 ML 신봉자는 아니었지만 GPT-3를 보면서 과연 어디까지 어떻게 활용할 수 있을까 생각해보게 된다. ML이 보편적인 기술이 되면서 이 기술을 어떻게 활용할지에 대한 상상력이 더 중요해지는 시기가 오는 것 아닌가. 트위터에서 GPT-3를 사용한 다양한 사례 중 몇 가지를 뽑았다.

By |2020-07-22T12:46:51+09:007월 22nd, 2020|IT|0 댓글

얼굴 기반의 범죄예측 알고리즘

Over 1,000 AI Experts Condemn Racist Algorithms That Claim to Predict Crime

By Janus Rose, Vice

얼굴을 기반으로 범죄여부를 예측하는 알고리즘을 제시하는 연구에 대해 많은 인공지능 전문가가 비판했다는 내용.

이 공개 서한은 하버드, MIT, 구글, 마이크로 소프트의 학계 및 인공 지능 전문가들에 의해 서명되었으며 출판사 스프링거에게 다가오는 논문의 출판을 중단 할 것을 요구했다. 이 논문은“80 %의 정확성”과“인종의 편견이없는”얼굴 사진만으로 범죄를 저지를 지 여부를 저자가 주장 할 수있는 시스템을 설명합니다.eng

The public letter has been signed by academics and AI experts from Harvard, MIT, Google, and Microsoft, and calls on the publishing company Springer to halt the publication of an upcoming paper. The paper describes a system that the authors claim can predict whether someone will commit a crime based solely on a picture of their face, with “80 percent accuracy” and “no racial bias.”

업데이트 한 뉴스에 따르면 네이쳐에 투고한 논문은 게제불가를 받아서 확인할 수는 없지만 가짜 프로필을 만드는데 얼굴이 왜 중요한지에 대해 생각해보다가 떠오른 기사. 하지만 동양에서는 얼굴을 가지고 판단하는 관상이라는 문화가 익숙하지 않은가? 연구와 관계없이 데이터가 있다면 유사한 아이디어로 한 번 시도해보고 싶은 내용이다.

By |2020-07-21T15:31:48+09:007월 21st, 2020|IT|0 댓글

뉴스기사에서 딥페이크 이용 가짜 프로필

Right-Wing Media Outlets Duped by a Middle East Propaganda Campaign

By Adam Rawnsley, Daily Beast

데일리 비스트에 따르면 실존하지 않는 가상의 언론인, 분석가, 정치컨설턴트 네트워크가 보수 언론에서 특정 프로파간다를 확산하는데 이용되었다고 한다. 이러한 가짜 네트워크 인물 프로필을 만드는 과정에서 딥페이크가 활용되었다는 이야기.

가짜 기고자들도 인격의 일부를 위해 AI 생성 아바타를 사용했습니다. 포스트 밀레니얼 (Post Millennial)에 실린 기사에 게시 된 Joseph Labba 인격의 고해상도 프로필 사진은 AI 생성 얼굴에서 일반적으로 발견되는 숨길 수 없는 결함을 보여줍니다. 왼쪽 귀는 주름없이 이상하게 매끄럽습니다. 미들버리 국제 연구 연구소 (Middlebury Institute of International Studies)의 연구원 인 Sam Meyer는 이미지 분석 소프트웨어를 사용하여 Labba의 사진을 검토 한 후 입에 4 개가있는 곳에 맞지 않는 치아가 3 개있는 것을 확인했습니다.eng

The fake contributors also appear to have used AI-generated avatars for a handful of their personas. A high-resolution profile photo of the Joseph Labba persona, posted for an article at The Post Millennial, shows some of the telltale glitches commonly found in AI-generated faces. The left ear is oddly smooth without any ear lobe creases. Middlebury Institute of International Studies research associate Sam Meyer reviewed the photo of Labba using imagery analysis software and also noticed he appears to have three misfit teeth in his mouth where there should be four.

소셜미디어에 다른 사람 프로필을 도용해서 가짜 프로필을 만드는 것은 흔한 일(예. 캣피쉬)이었으나 프로필에 ThisPersonDoesNotExist.com에서 얻을 수 있는 것과 같은 AI생성 이미지를 사용했다는 점이다. 저널리즘에서 알 수 없는 출처의 발언을 가지고 기사를 작성하던 오랜 관행은 완전히 사라져야한다는 것을 말해준다. 여기서 개인적으로 관심이 가는 내용은 왜 신뢰를 위해 얼굴을 필요로 할까라는 점이다.

By |2020-07-21T15:03:12+09:007월 21st, 2020|Media|0 댓글

뉴스레터 유료화

며칠 사이 개인적으로 구독하는 뉴스레터 중 두 개나 유료화가 이루어졌다. 인터넷에서 정보는 무제한으로 공급되기에 완전 경쟁 시장이고 한계비용이 제로에 가깝다. 하지만 볼 만한 정보는 당연히 돈이 된다.  로이터 연구소 보고서는 사람들이 온라인 뉴스에 돈을 지불하는 이유에 대해 두 가지를 언급했다. 콘텐츠의 독창성(distinctiveness)과 품질(quality)이다.

전반적으로 가장 중요한 요소는 콘텐츠의 독창성과 품질입니다. 두 국가에서 가입자는 무료 소스보다 더 나은 정보를 얻고 있다고 생각합니다. 응답자의 1/3 이상이 특정 기자와의 친밀한 관계로 인해 구독한다고 언급합니다. 미국에서는 더 많은 사람들이 자신의 직무를 수행하기 위해 돈을 지불 할 준비가되었고 (영국에서는 3 %에 비해 13 %), 이는 월스트리트 저널 (Wall Street Journal)과 같은 금융 출판물을 구독하는 비율이 더 큰 것과 부합했습니다. 구독을 쫓는 여러 출판물이 구독자에게 더 많은 가치를 알리고 있는 미국 시장의 경쟁 특성으로 인해 응답자의 1/3은 ‘좋은 조건’을 구독자 이유로 밝혔다.eng

Overall, the most important factor is the distinctiveness and quality of the content. In both countries, subscribers believe they are getting better information than from free sources. More than a third cite a close affinity with a particular journalist as a reason to subscribe. In the US we find more people prepared to pay to get ahead in their job (13% compared to just 3% in the UK) and this tallies with a bigger proportion subscribing to finance publications like the Wall Street Journal. The competitive nature of the US market, with multiple publications chasing subscriptions, is also making subscribers more aware of value, with one-third citing getting a ‘good deal‘ as a reason to subscribe.

베네딕트 에반스도 뉴스레터(Benedict’s Newsletter)에서 웹 보다도 오래된 기술인 뉴스레터가 주목받는 이유에 대해 언급한다. 왜 그럴까라고 개인적으로도 생각해 본 적이 있는데 상당히 재미있는 관점이다. 심리적으로 가치에 대한 인식이 변화했기 때문이라고 한다.

그러나. 오늘날 뉴스 레터의 새롭고 흥미로운 부분은 지불입니다. 마크 안데르센(Marc Andreessen)은 웹에 향후 비트코인에 사용될 것으로 보이는 사용되지 않는 지불 자리 코드(402)가 있다는 것을 좋아합니다. 유료 뉴스 레터는 매우 오래된 기술을 사용합니다. 변화는 심리학과 가치에 대한 인식입니다. 이메일은 당신에게 제공되며, 당신이 가지고 있고 유지할 수있는 실질적이고 거의 물리적 인 것입니다 (스크린 샷이 아닌). 웹 사이트 구독은 성가시고 기억해야해야 합니다. 당신이 지불한다면, 아마도 당신은 파이어호스에서 길을 잃지 않도록 해야합니다. 그러나 개별적으로 몇 개를 지불합니까? 어쩌면 여러 구독을 하나로 묶고 관심을 기반으로 지불을 할당하는 집계자가 있어야 할 수도 있습니다. 그리고 그것은 추천을 할 수도 있고…eng

But. The new-and-interesting part to newsletters today is payment. Marc Andreessen is fond of saying that the web has an unused placeholder for payment (402), which is where Bitcoin is supposed to come in. But a paid newsletter uses very old tech: the change is the psychology, and the perception of value. An email comes to you, and it’s a tangible, almost physical thing that you have and that you can keep (rather like a screenshot), whereas a subscription to a website is nebulous, and you have to remember it, and you realise you never go there. And if you’re paying, maybe you make sure it doesn’t lost in the firehose. But how many things will you pay for individually? Maybe there should be an aggregator, that bundles multiple subscriptions into one and allocates payment based on attention. And it could do recommendations, and… oops.

다른 웹서비스의 구독과 완벽하게 차별화되는 특징을 발견할 수 있다. 과연 나는 유료로 전환한 뉴스레터 두 개를 구독하게 될까?

By |2020-07-13T15:51:29+09:007월 13th, 2020|Media|0 댓글

워드 임베딩의 성적 편향 완화

Double Hard-Debias: Tailoring Word Embeddings for Gender Bias Mitigation

 

세일즈포스(salesforce)와 버지니아 대학 연구자들이 제시한 워드 임베딩의 성적 편향을 완화하는 방법에 대한 내용이다.

워드 임베딩은 단어전체에서 단어를 나타내는 실제 숫자로 이루어진 벡터로 단어와 다른 단어의 관계에 대한 의미론적 구문론적인 뜻을 포착할 수 있게 해준다. 자연어 처리 작업에 널리 활용됨에도 코퍼스에 대한 학습과정에서 의도하지 않은 성적인 편견을 물려받는 것으로 인한 비판을 받았다.

예를 들면, 다음의 두 가지 기준(남성과 여성 / 젠더중립과 특정젠더)으로 단어를 분류한다면 우수한(brilliant), 똑똑한(genius)과 같은 단어는 젠더 중립적이고 숙녀(ladies), 여왕(queen) 같은 단어는 특정젠더에 속하는 단어이다.

이와 같은 문제를 알고리즘에 대한 비판으로 접근하는 것과 관련해 사람들이 그러한 방식으로 언어를 사용하기 때문이고, 알고리즘은 이러한 내용을 순수하게 반영하는 것이라는 단순한 실재론에 가까운 입장이었다. 오히려 알고리즘을 의인화하는 방식의 비판에 대해서 부정적이었으나 실제로 이런 학습과 관련된 문제를 적극적으로 교정하는 것이 점차 중요해진다. 예를 들어, 젠더 편견을 가진 시스템으로 이력서 필터링을 하는 경우 어떤 일이 생길 것인가? 이미 비슷한 사례가 많이 제시되었다.

기존 방식은 사후 처리 과정에서 성별 관련 구성 요소를 주성분 요소를 빼서 편견을 줄이는 방식이라고 한다. 하지만 이러한 방식이 가지는 한계는 단어의 빈도로 인해 제거된 젠더편향이 되살아날 수 있다는 점이다. 본 연구에서 제시한 방식은 워드 임베딩을 빈도가 없는 하위 공간으로 전환하는 과정을 거친다는 것이다. 대충 느낌은 오지만 실제로 데이터를 돌려봐야 정확하게 파악할 수 있을 것 같다.

일부 전문가들은 단어 삽입에서 편견을 완전히 제거 할 수 없다고 생각하는 것은 가치가 있습니다. 뮌헨 기술 대학 (Technical University of Munich)의 최근 메타 분석에서, 기고자들은 단어의 의미 론적 내용이 항상 사회의 사회 정치적 맥락에 묶여 있기 때문에 자연적으로 발생하는 중립적 텍스트와 같은 것은 없다고 주장합니다. eng

It’s worth noting that some experts believe bias can’t be fully eliminated from word embeddings. In a recent meta-analysis from the Technical University of Munich, contributors claim there’s “no such thing” as naturally occurring neutral text because the semantic content of words is always bound up with the sociopolitical context of a society.

알고리즘도 현실을 반영하는 하나의 미디어로 결국은 언어와 세상에 관해 어떤 관점을 가져가는지에 대해 고민할 필요가 있다. 완전 중립적이라는 것은 존재하지 않지만 이러한 편향을 줄이는 것이 가지는 의미에 대해 생각해볼 필요가 있지 않을까.

By |2020-07-10T15:33:43+09:007월 10th, 2020|IT|0 댓글