[카테고리:] IT

워드 임베딩의 성적 편향 완화

Double Hard-Debias: Tailoring Word Embeddings for Gender Bias Mitigation

세일즈포스(salesforce)와 버지니아 대학 연구자들이 제시한 워드 임베딩의 성적 편향을 완화하는 방법에 대한 내용이다.
워드 임베딩은 단어전체에서 단어를 나타내는 실제 숫자로 이루어진 벡터로 단어와 다른 단어의 관계에 대한 의미론적 구문론적인 뜻을 포착할 수 있게 해준다. 자연어 처리 작업에 널리 활용됨에도 코퍼스에 대한 학습과정에서 의도하지 않은 성적인 편견을 물려받는 것으로 인한 비판을 받았다.
예를 들면, 다음의 두 가지 기준(남성과 여성 / 젠더중립과 특정젠더)으로 단어를 분류한다면 우수한(brilliant), 똑똑한(genius)과 같은 단어는 젠더 중립적이고 숙녀(ladies), 여왕(queen) 같은 단어는 특정젠더에 속하는 단어이다.
이와 같은 문제를 알고리즘에 대한 비판으로 접근하는 것과 관련해 사람들이 그러한 방식으로 언어를 사용하기 때문이고, 알고리즘은 이러한 내용을 순수하게 반영하는 것이라는 단순한 실재론에 가까운 입장이었다. 오히려 알고리즘을 의인화하는 방식의 비판에 대해서 부정적이었으나 실제로 이런 학습과 관련된 문제를 적극적으로 교정하는 것이 점차 중요해진다. 예를 들어, 젠더 편견을 가진 시스템으로 이력서 필터링을 하는 경우 어떤 일이 생길 것인가? 이미 비슷한 사례가 많이 제시되었다.
기존 방식은 사후 처리 과정에서 성별 관련 구성 요소를 주성분 요소를 빼서 편견을 줄이는 방식이라고 한다. 하지만 이러한 방식이 가지는 한계는 단어의 빈도로 인해 제거된 젠더편향이 되살아날 수 있다는 점이다. 본 연구에서 제시한 방식은 워드 임베딩을 빈도가 없는 하위 공간으로 전환하는 과정을 거친다는 것이다. 대충 느낌은 오지만 실제로 데이터를 돌려봐야 정확하게 파악할 수 있을 것 같다.

일부 전문가들은 단어 삽입에서 편견을 완전히 제거 할 수 없다고 생각하는 것은 가치가 있습니다. 뮌헨 기술 대학 (Technical University of Munich)의 최근 메타 분석에서, 기고자들은 단어의 의미 론적 내용이 항상 사회의 사회 정치적 맥락에 묶여 있기 때문에 자연적으로 발생하는 중립적 텍스트와 같은 것은 없다고 주장합니다. [expand title=eng]
It’s worth noting that some experts believe bias can’t be fully eliminated from word embeddings. In a recent meta-analysis from the Technical University of Munich, contributors claim there’s “no such thing” as naturally occurring neutral text because the semantic content of words is always bound up with the sociopolitical context of a society.[/expand]

알고리즘도 현실을 반영하는 하나의 미디어로 결국은 언어와 세상에 관해 어떤 관점을 가져가는지에 대해 고민할 필요가 있다. 완전 중립적이라는 것은 존재하지 않지만 이러한 편향을 줄이는 것이 가지는 의미에 대해 생각해볼 필요가 있지 않을까.

10월 29, 2025
얼굴 기반의 범죄예측 알고리즘

Over 1,000 AI Experts Condemn Racist Algorithms That Claim to Predict Crime
By Janus Rose, Vice
얼굴을 기반으로 범죄여부를 예측하는 알고리즘을 제시하는 연구에 대해 많은 인공지능 전문가가 비판했다는 내용.

이 공개 서한은 하버드, MIT, 구글, 마이크로 소프트의 학계 및 인공 지능 전문가들에 의해 서명되었으며 출판사 스프링거에게 다가오는 논문의 출판을 중단 할 것을 요구했다. 이 논문은“80 %의 정확성”과“인종의 편견이없는”얼굴 사진만으로 범죄를 저지를 지 여부를 저자가 주장 할 수있는 시스템을 설명합니다.[expand title=eng]
The public letter has been signed by academics and AI experts from Harvard, MIT, Google, and Microsoft, and calls on the publishing company Springer to halt the publication of an upcoming paper. The paper describes a system that the authors claim can predict whether someone will commit a crime based solely on a picture of their face, with “80 percent accuracy” and “no racial bias.”
[/expand]

업데이트 한 뉴스에 따르면 네이쳐에 투고한 논문은 게제불가를 받아서 확인할 수는 없지만 가짜 프로필을 만드는데 얼굴이 왜 중요한지에 대해 생각해보다가 떠오른 기사. 하지만 동양에서는 얼굴을 가지고 판단하는 관상이라는 문화가 익숙하지 않은가? 연구와 관계없이 데이터가 있다면 유사한 아이디어로 한 번 시도해보고 싶은 내용이다.

10월 29, 2025
GPT-3 아이디어

OpenAI API

OpenAI에서 새롭게 출시된 머신러닝 도구가 공개되고 나서 많은 사람들이 관심을 보였다. 엄청나게 큰 데이터를 통해 학습한 텍스트 생성 모델이라고 간단하게 설명할 수 있을 것 같다. 나는 열렬한 ML 신봉자는 아니었지만 GPT-3를 보면서 과연 어디까지 어떻게 활용할 수 있을까 생각해보게 된다. ML이 보편적인 기술이 되면서 이 기술을 어떻게 활용할지에 대한 상상력이 더 중요해지는 시기가 오는 것 아닌가. 트위터에서 GPT-3를 사용한 다양한 사례 중 몇 가지를 뽑았다.

This is mind blowing.

With GPT-3, I built a layout generator where you just describe any layout you want, and it generates the JSX code for you.
W H A T pic.twitter.com/w8JkrZO4lk
— Sharif Shameem (@sharifshameem) July 13, 2020

OpenAI releases Image-GPT, a version of the same AI that you’ve probably seen generating writing. Only this time the same architecture (!!!) is trained on images instead. Given a partial image, it can generate multiple different ways of completing it. https://t.co/2DfsXyn984 pic.twitter.com/9DGBZDSTne

— Kaj Sotala (@xuenay) June 19, 2020

This changes everything.

With GPT-3, I built a Figma plugin to design for you.
I call it “Designer” pic.twitter.com/OzW1sKNLEC
— Jordan Singer (@jsngr) July 18, 2020

I made a fully functioning search engine on top of GPT3.

For any arbitrary query, it returns the exact answer AND the corresponding URL.
Look at the entire video. It’s MIND BLOWINGLY good.
cc: @gdb @npew @gwern pic.twitter.com/9ismj62w6l
— Paras Chopra (@paraschopra) July 19, 2020

=GPT3()… the spreadsheet function to rule them all.

Impressed with how well it pattern matches from a few examples.
The same function looked up state populations, peoples’ twitter usernames and employers, and did some math. pic.twitter.com/W8FgVAov2f
— Paul Katsen (@pavtalk) July 21, 2020

10월 29, 2025
노-코드(No-Code) 세대

The No-Code Generation is arriving
Danny Crichton, by TechCrunch
노 코드 세대(No-Code Generation)이라는 말이 자극적인것처럼 들릴수도 있지만 이미 4-5년 전부터 주변 사람들과 항상 해왔던 이야기이다.

지난 2년 동안 우리는 광범위하게 (그리고 매우 부정확하게) “코드없는 플랫폼”이라고 불리는 전체 소프트웨어 클래스의 부상을 목격했다. 이러한 도구는 사용자가 일상 업무에서 컴퓨팅의 힘을 훨씬 쉽게 활용할 수 있도록 설계되었다. 이는 일종의 오브젝트 기능을 고려하여 가장 성공적인 디지털 광고 캠페인을 계산하는 것부터 컴퓨터 비전 라이브러리를 건물에 들어가거나 나가는 사람의 수를 계산하는 워크 플로에 통합하는 것부터 모든 것이 될 수 있다.[expand title=eng]
Over the past two or so years, we have seen the rise of a whole class of software that has been broadly (and quite inaccurately) dubbed “no-code platforms.” These tools are designed to make it much easier for users to harness the power of computing in their daily work. That could be everything from calculating the most successful digital ad campaigns given some sort of objective function, or perhaps integrating a computer vision library into a workflow that calculates the number of people entering or exiting a building.[/expand]

컴퓨터사이언스 외 전공에서 학생들에게 코딩을 가르치는 방향으로 커리큘럼이 추가되었는데 개인적으로는 회의적이었다. 주변에 있는 컴퓨터 엔지니어 하는 분도 그런걸 왜 가르쳐야하는지 비슷한 의견을 준 적이 있다. 그런 것들이 다 솔루션으로 만들어지기 때문에 애매하게 배우는 것이 전혀 도움이 안 된다는 것. 꼭 데이터 분석을 파이썬으로 한다든지 모두가 스파크를 배워야한다든지 하는 건 아니지 않을까. 전문적 엔지니어링 영역으로 들어가면 또 이야기가 달라지기에 할 수 있는 범위에 집중하고 기본적인 이해에 기반하여 협업하는 방식이 좋은거 아닐까.

10월 29, 2025
구글의 자동 비디오 생성 실험

Experimenting with Automatic Video Creation from a Web Page
By Google Research

웹 페이지에서 자동으로 비디오를 생성해주는 구글의 URL2Video. 동영상을 보면 간단하게 이해할 수 있는데 웹 페이지 주소에서 디자인 요소를 추출하고 적절한 시간을 배치한 이후에 레이아웃에 맞춰 스타일을 뽑아내는 방식이다.
사레에서 확인할 수 있는 것처럼 커머스 분야에서 활용할 것으로 보인다. 다수 사람들이 정말로 텍스트보다 영상을 선호하는것인지는 여전히 잘 모르겠지만 적어도 사례에서 보여주는 디자인에서는 나쁘지 않아 보인다.
거창하게 인공지능을 이야기하며 기계 학습을 말하지만 MS 오피스에 들어있는 디자인 아이디어라는 것도 인공지능이다. 콘텐츠를 만드는 전체 과정에서 어떤 부분들이 이러한 기술을 활용해 자동화가 될 것인가. 다양한 소프트웨어가 이런 기술을 도입하면서 제작하는 과정이 간편해지는 건 좋은 일이라고 생각할 수도 있지만 어떤 의미로는 점점 먹고 살기 힘들어지는 것인지도 모르겠다.

10월 29, 2025
클럽하우스의 필연성

Clubhouse’s Inevitability
by Ben Thompson, stratechery

클럽하우스에 대한 글이 너무 많아서 피로감을 느끼는 사람들이 많은가보다. 그래서인지 베네딕트 에반스 같은 경우 최근 쓴 글에서 “I’m not going to write about Clubhouse (I promise).”라고 말하기도 했다. 벤 톰슨의 글도 읽어보지 않으려고 했으나 클럽하우스에 대한 내용과 별개로 재미있어서 간단하게 정리해놓는다. 벤 톰슨은 인터넷에서 발견할 수 있는 포맷 – 텍스트, 사진, 비디오 -이 민주화, 집계, 변환의 역사를 겪어왔던 것처럼 오디오에서도 클럽하우스 방식의 등장은 필연적일 수밖에 없다는 논지를 이야기하고 있다. 인터넷 역사에 관심이 있다든지 벤 톰슨의 몇 가지 글을 읽어왔던 독자라면 익숙한 이야기일 수 있으나 간결하게 정리된 내용이 왠지 여러가지 생각을 하게 만들어주는 것 같다.
우선 민주화(democratization)와 관련하여 인터넷이 누구에게나 콘텐츠를 출판할 수 있는 기회를 주었다는 것은 널리 알려진 사실이다.

텍스트를 배포하는데 더 이상 인쇄기가 필요하지 않고 단순히 블로깅 소프트웨어가 필요합니다. 이미지를 배포하는데 더 이상 스크린 인쇄가 필요하지 않고 단순히 웹 사이트만 있으면됩니다. 비디오 배포에는 더 이상 방송 라이센스가 필요하지 않고 단순히 서버만 필요합니다. 오디오를 배포하려면 더 이상 라디오 타워가 필요하지 않고 MP3만 있으면 됩니다. 이 프로세스를 더 쉽게 만들기 위해 기업이 등장했습니다. 블로깅을 위한 블로거(Blogger), 사진 공유를 위한 플리커(Flickr), 비디오를 위한 유튜브(YouTube), 팟 캐스팅을 위한 아이튠즈(iTunes) 등이 있습니다.[expand title=eng]
Distributing text no longer required a printing press, but simply blogging software. Distributing images no longer required screen-printing, but simply a website. Distributing video no longer required a broadcast license, but simply a server. Distributing audio no longer required a radio tower, but simply an MP3. Businesses soon sprang up to make this process easier: Blogger for blogging, Flickr for photo-sharing, YouTube for video, and iTunes for podcasting.[/expand]

집계(aggregation)는 벤 톰슨이 인터넷의 영향력을 설명하기 위해 지속해서 주장해왔던 이론으로 콘텐츠의 증가로 인해 이용자에게 더 나은 이용자 경험을 제공해주는 플랫폼 사업자가 승자가 되었다는 것이다. 이용자 기반의 네트워크 효과는 더 지배적인 사업자를 만든다. 이러한 전략은 여전히 많은 온라인 기반 비즈니스에서 사용하고 있는데 스포티파이가 팟캐스트에 하고 있는 것들이 사례이다.
전환(transformation)이라는 부분을 보면서 여러가지 생각을 하게 되었는데 인터넷 상황에서도 기존 오프라인에서 하던 것과 콘텐츠 형태가 크게 다르지 않았다는 것이다.

출판 민주화로 인해 콘텐츠가 폭발적으로 증가했음에도 불구하고 실제로 출판된 내용은 인터넷 이전 시대에 출판되어온 내용과 거의 유사했습니다. 블로그 게시물은 기사에 불과했습니다. 인스타그램 게시물은 사진에 불과했습니다. 유튜브 동영상은 TV 에피소드에 불과했습니다. 팟 캐스트는 라디오 쇼였습니다. 마지막 단계는 변화였습니다. 이전에는 불가능했던 완전히 새로운 것을 창조했습니다.[expand title=eng]
Still, even with the explosion of content resulting from democratizing publishing, what was actually published was roughly analogous to what might have been published in the pre-Internet world. A blog post was just an article; an Instagram post was just a photo; a YouTube video was just a TV episode; a podcast was just radio show. The final step was transformation: creating something entirely new that was simply not possible previously.[/expand]

전환과 관련하여 설명한 유튜브의 사례는 다음과 같다.

유튜브는 사이트에 머무르게 만들기 위해 자체 알고리즘에 많은 투자를 해왔지만 몰입도 수준은 여전히 개별 크리에이터가 개별 동영상을 제공한 기록에 의해 결정됩니다. 반면에 틱톡은 참여와 입소문의 안개로 빠르게 함께 흐려지는 비디오 스트림으로 사용자를 밀어넣습니다.[expand title=eng]
YouTube has invested heavily in its own algorithm to keep you on the site, but its level of immersion is still gated by its history of serving discrete videos from individual creators; TikTok, on the other hand, drops you into a stream of videos that quickly blur together into a haze of engagement and virality.[/expand]

유튜브 알고리즘을 연구하면서 생각보다 이용자들이 유튜브가 제공하는 알고리즘에 몰입하지 않는다는 사실을 확인할 수 있었고 필터버블에 대한 우려가 어느 정도는 과장될 수도 있겠구나 하는 생각을 했었다. 클럽하웃의 성공에도 머뭇거림이 없는 알고리즘을 제공하는 것이 필연적으로 필요하다는 이야기를 한다.
COVID-19, 스탠포드의 프라이버시 관련 보고서, 페이스북의 음성서비스 출시 계획에 대한 이야기가 있지만 재미있는 부분은 포맷을 중심으로 하는 전환에 대한 설명과 적절한 비즈니스 모델(텍스트에 대한 설명에서 광고보다는 구독을 이야기한 점)에 대한 부분이 아니었을까. 키워드를 중심으로 이런저런 생각해볼만한 점이 많은 글 아닌가 싶다.

10월 29, 2025
비트코인 티모시 메이 인터뷰

‘사이퍼펑크의 전설’은 요즘 블록체인이 마음에 들지 않는다
코인데스크코리아

다시 말하지만 가장 중요한 문제는 프라이버시 혹은 익명성을 지키느냐 아니면 고객파악제도(KYC)에 따라 거래 당사자의 신원을 중앙 권력이 일일이 확인하고 관장하느냐의 싸움입니다. “권력을 분산하는(decentralized), 무정부주의(anarchic), 개인 간 직접 거래(peer-to-peer)”냐, 아니면 “권력을 집중하는(centralized), 중앙의 승인을 받아야만 거래할 수 있는(permissioned), 권력이 뒤에서 모든 것을 감시하고 장악할 수 있는 길을 열어주느냐(back door)”의 싸움이기도 합니다. 프라이버시를 무엇보다 중시하는 사이퍼펑크나 사토시, 다른 선구자들은 중앙의 승인이 없이도 누구나 접근할 수 있으며 거래 수단으로 돈을 주고받는 과정은 중개인 없이 개인 간에 직접 하는 방식을 고집해왔습니다. 한 걸음 더 나아가 아예 법정화폐를 대체해야 한다는 주장이 나오기도 했죠.

비트코인에 대해 복잡한 이야기를 하지만 결국 중요한 컨셉은 이 부분 아닌가 싶다. 일본에서는 세금도 걷는다고 하는데 그렇다면 과연 비트코인이 가지는 의미가 있을까.

10월 29, 2025
프랑스 구글에 5천만 유로 벌금

French data protection watchdog fines Google $57 million under the GDPR
Romain Dillet by TechCrunch

프랑스 데이터 보호 감시기관 CNIL이 구글에 GDPR 위반혐위로 5천만 유로 벌금을 부과했다는 기사. 새로운 안드로이드폰 설정과정에서 GDPR 규정을 준수하지 못했다는 것. 투명성과 이용자동의 부문에서 세 가지 사례를 이야기 함.

첫째, 만약 이용자들이 개인화 광고에 자신의 데이터가 이용되는 절차를 확인하기 위해서 5-6번의 과정이 필요하다는 것(용어가 애매모호하여 이해하기 어렵다는 점). 둘째, 이용자를 구글 계정에 로그인하도록 강제한다는 점(계정을 만들지 않으면 이용자 경험이 악화될 것이라고 말함). 셋째, GDPR에서 금지하는 광범위한 동의를 요청한다는 점이다.

10월 29, 2025
Edge 브라우저 NewsGuard 플러그인

Don’t trust Daily Mail website, Microsoft browser warns users
Jim Waterson, Guardian

MS Edge 브라우저 모바일에 NewsGuard 플러그인이 들어간다. 데일리 메일(Daily Mail) 웹 사이트 방문자는 “일반적으로 본 사이트는 정확성과 책무성의 기본 표준을 유지하지 못함”, “많은 유명 인사의 사례에 대해 손해 배상을 강요 당했다”, “평판을 손상 시키거나 광범위한 경고를 유발하거나 개인 정보 침해를 구성하는 콘텐츠를 정기적으로 게시함”과 같은 경고 메시지를 보게 된다.

NewsGuard는 뉴스 업계 베테랑들에 의해 운영되며 신뢰하라 수 있는 뉴스 웹 사이트를 위한 업계 표준 벤치 마크를 수립하려는 시도라고 말한다. 사이트가 일련의 저널리즘 표준을 준수하는지 여부를 직접 확인하는 애널리스트를 고용한다. 모든 판결을 공개하며 비평에 응답하고 더 높은 평점을 얻기 위해 표준을 개선 할 수 있도록 언론사를 초대한다.[expand title=eng]
NewsGuard is run by news industry veterans and says it is trying to establish industry-standard benchmarks for which news websites should be trusted. It employs analysts to manually check whether sites meet a series of journalistic standards, making all its judgments public and inviting outlets to respond to criticism and improve their standards to gain a higher rating.[/expand]

비즈니스 모델은 기술 기반 기업에 라이센스를 판매하는 형태. 부정확한 정보와 싸워야 하지만 책임은 지고 싶지 않은 기술기반 기업을 대상으로 한다 밝히고 있다.

10월 29, 2025
중국의 감시기술 투자

Inside China’s Dystopian Dreams A.I., Shame and Lots of Cameras
The New York Times · by Paul Mozur

중국의 개인 감시 기술에 대한 기사는 국내에도 많이 나왔는데 특별히 업데이트 된 이야기는 없는 것 같다. 그럼에도 향후 언급한 부분이 있어서 올려놓는다.

시진핑은 중국 감시국을 대대적으로 업그레이드했다. 중국은 보안 및 감시 기술 분야에서 세계 최대의 시장으로 자리 매김하고 있으며, 분석가들은 2020년까지 약 3억 대의 카메라를 설치하게 될 것이라고 전망했다. 중국 구매자는 얼굴이 나온 비디오 영상을 스캔하도록 설계된 모든 서버의 4 분의 3 이상을 사갈 것이라고 리서치 회사인 IUS Markit은 예측했다. 중국 경찰은 지난 수개월 동안 테크노 기반 스누핑에 300억 달러를 추가로 지출 할 것이라고 한 전문가는 말했다.[expand title=eng]
Mr. Xi has launched a major upgrade of the Chinese surveillance state. China has become the world’s biggest market for security and surveillance technology, with analysts estimating the country will have almost 300 million cameras installed by 2020. Chinese buyers will snap up more than three-quarters of all servers designed to scan video footage for faces, predicts IHS Markit, a research firm. China’s police will spend an additional $30 billion in the coming years on techno-enabled snooping, according to one expert quoted in state media.[/expand]

국가적으로 감시에 투자하기에 기술을 보유한 여러 보안관련 기업들이 성장하고 있다. 발전하고자 하는 기술과 국가의 욕망이 맞아떨어지는 것처럼 보인다.

10월 29, 2025