프롬프트에 텍스트를 입력하여 결과물을 출력하는 생성인공지능이 왜 끔찍한 인터페이스를 가지고 있는지에 관한 글. 실제로 결과물을 얻기위해서는 수십차례의 시행착오를 겪어야하며, 이로 인해 프롬프트를 거래하는 프롬프트베이스와 같은 서비스도 생긴 상황. 해당 글에서는 몇 가지 논문을 바탕으로 다른 방식에 대한 이야기를 하기도 함.
제너레이티브 AI 모델은 놀랍지만 끔찍한 인터페이스입니다. 사용자가 입력 제어가 출력에 미치는 영향을 예측할 수 없으면 시행 착오에 의존해야 하는데 이는 실망스러운 일입니다. 이것은 새로운 콘텐츠를 생성하기 위해 생성 AI를 사용할 때 중요한 문제이며 입력 컨트롤과 출력 간의 매핑이 명확하지 않은 한 문제로 남을 것입니다. 그러나 우리는 사용자가 AI와 공통 기반/공유 의미론을 설정할 수 있고 그러한 공유 의미론이 누락되었을 때 복구 메커니즘을 제공할 수 있는 대화형 상호 작용을 활성화하여 AI 인터페이스를 개선할 수 있습니다.
GPT 모델을 비판하는 사람들의 주요 이야기 중 하나는 확률적으로 다음 단어를 추정하는 앵무새일 뿐이라는 점이다. 하지만 사고(thinking)에는 추론(reasoning)과 지식(knowledge)이 있다는 점을 생각해본다면 GPT가 어떻게 사용될 수 있을것이라는 점을 다시 생각해볼 수 있다 말한다.
예를 들면, ChatGPT에서 특정 인물에 대한 정보를 물으면 부정확한 정보를 제공해주지만, 인터넷에 접속할 수 있는 ChatGPT는 추론이 아닌 웹 조사를 통해 정확한 답변을 추출한다. 저자는 이를 통해 모델의 발전만큼 지식 데이터베이스의 발전이 중요하다 말한다. 따라서 자신의 생각을 정리하고 저장하고 분류하는 사람들은 이러한 모델을 통해 더 높은 효용을 가질 수 있을 것이라는 것이 저자의 주요 생각이다.
우리는 입력의 중요성을 과소평가하는 경향이 있습니다. 이러한 결과를 얻기 위해 입력한 정보가 무엇인지 말입니다. 그 답은 우리가 분석을 위해 제공하는 정보에 크게 좌우됩니다. 시작점만큼 강력합니다. 우리는 지식의 한계, 즉 얼마나 많은 정보가 잠겨 있고 이러한 시스템에 액세스할 수 없는지에 대해 충분히 주의를 기울이지 않습니다. 또한 정보 소스를 탐색하고 관련 사실을 찾는 데 시간과 컴퓨팅 비용이 얼마나 드는지 잊고 있습니다. 마지막으로 적시에 모델에 대한 관련 정보를 표시하는 것이 어렵다는 점을 과소평가합니다. 그러나 이러한 종류의 문제를 해결하는 것은 기본 모델의 추론 기능을 해결하는 것만큼이나 근본적입니다.
드레이크와 더위켄드의 콜라보레이션이 인공지능으로 만들어진 곡이었던 것과 관련해 작성한 벤 톰슨의 글이다. 소셜미디어에서 인기를 끌었던 영상은 저작권자 유니버셜뮤직의 신고로 삭제되었다. 아래는 해당 글에 대한 간략한 요약.
이 사건과 관련해서 벤 톰슨은 인공지능이 음악 창작에 미칠 영향과 음원 업계가 대처하는 방식에 대해 다룬다. 음원 업계는 AI가 저작권을 침해하거나 인기 아티스트의 음악을 모방하여 유사한 곡을 만드는 것이 점차 많아질 것이다. 이러한 문제를 해결하기 위해 음원 업계는 스트리밍 플랫폼에서 AI가 음원을 수집하거나 가공하는 것을 막도록 요청하고 있다.
AI가 창작하는 콘텐츠가 늘어남에 따라 콘텐츠의 진짜 출처와 정체성이 중요해지고 있다. 음악 레이블은 AI가 저작권을 침해하거나 인기 아티스트의 스타일을 모방하여 AI에 의해 창작된 노래를 제거하도록 요청하고 있지만, 다양한 콘텐츠가 창출될 수 있는 AI 생성 콘텐츠의 정체성을 보장하는 것이 중요하다 제시한다. 이를 위해, 콘텐츠의 출처와 정체성을 검증하는 ‘제로 트러스트 신뢰성’ 모델이 필요하다 말한다. 이 모델은 기존 보안 방식인 ‘성벽-해자’ 모델을 버리고 모든 사용자와 콘텐츠를 ‘신뢰하지 않는 것’으로 시작하는 것이 필요하고 본다.
벤 톰슨이 언급한 내용은 이미 잘한다는 생각이 드는 크리에이터 커뮤니티에서 흔하게 볼 수 있는 방법이지만 글에서 몇 가지 인상적인 내용이 있다. 우선, 잘못된 정보를 검열하려는 시도는 실패할 수밖에 없다는 이야기를 하며 제로 트러스트 신뢰성을 언급하는데 1) 아마도 인공지능 생성 콘텐츠가 급격하게 증가하면 지금의 이러한 방식은 완전히 불가능해질 것이라는 점, 그리고 2)이미 사람들은 온라인에서 읽는 내용에 대체로 회의적이라는 것이다. 마지막으로 3) 본질적 가치가 어디에서 오는지에 대해 생각해볼 필요가 있다는 점이다.
트위터의 최근 시도, 그동안 관심을 좀 덜 가지던 블록체인이 왜 중요한 이슈가 될 수 있는지 생각해볼만 하다.
최근에 과연 내가 할 수 있는 일이 무엇인지에 대해 생각해보게 되는데, 예전에 낮은 수준의 자동화에 관해 논의하던 시절과는 확실히 다른 분위기가 있는 것 같다. 대규모 언어 모델이 등장한 이후에 그동안 매달리던 문제들이 한꺼번에 해결되었다고 말하는 사람들이 꽤나 있고, 개발자 커뮤니티에서 목수일을 배울까 고민중이라고 글을 쓰는 사람도 보았다.
대규모 언어 모델 등장 이후에 육체노동자보다 일부 전문직 노동자가 대체될 가능성이 높다는 이야기 때문인 듯 하다. 한국언론진흥재단 일반 이용자 대상의 설문조사를 보면 생성 인공지능의 직업 대체 가능성을 보았을 때, 번역가/통역사(90.9%), 데이터분석 전문가(86.9%), 자산관리사/보험설계사 (79.2%), 회계사/세무사(74.0%)로 나타난다. 10개 직업군이 대부분 전문직종에 속하기 때문에 육체노동자와 비교하여 보기는 어렵지만 일반인들의 인식 경향을 확인해볼 수 있는 자료다.
하지만 육체노동자라도 크게 다르지 않을 것 같다. 올해 주식시장에서 가장 주목받은 섹터를 뽑으라면 2차전지와 로봇이라고 할 수 있는데 로봇의 성능향상도 급격하게 이루어질 가능성이 커보인다. 아마존과 구글은 이와 관련된 연구를 거의 비슷한 시기에 발표했다.
Amazon releases largest dataset for training “pick and place” robots 아마존은 창고에서 제품을 선택, 분류 및 포장하는 로봇의 성능을 개선하기 위한 노력의 일환으로 산업용 제품 분류 환경에서 캡처한 가장 큰 이미지 데이터 세트를 공개했습니다 . 산업 이미지의 가장 큰 이전 데이터 세트가 대략 100개 객체에 대해 특징을 나타낸 반면 ARMBench라고 하는 Amazon 데이터 세트는 190,000개 이상의 개체를 특징으로 합니다. 따라서 새로운 제품과 컨텍스트에 더 잘 일반화할 수 있는 “선택 및 배치” 로봇을 훈련하는 데 사용할 수 있습니다.
유니클로의 모회사 Fast Retailing Co.는 RFID에 투자. 이로 인해 구매한 의류를 상자에 넣기만 하면 빠르게 결재가 이루어진다. 아래는 WSJ에 올라온 사진.
생성 인공지능이나 컴퓨터 비전을 활용한 로봇 이야기가 주목받고 있지만, 이러한 방식은 아직까지 광범위한 사용에는 비용이 많이 든다. 반면, 낡은 기술로 보이는 RFID 태그는 개당 60센트에서 4센트까지 가격이 하락했다.
이러한 기술을 활용함으로써 얻을 수 있는 장점은 고객 쇼핑 경험 개선.
Fast Retailing은 기계를 출시한 이후로 고객이 계산대에서 대기 시간을 50% 줄였다고 말했습니다. 이 회사는 RFID 판독기와 안테나를 사용하고 있으며 둘 다 POS 시스템에 통합되어 있으며 품목을 구매한 후에는 추적이 중단된다고 말했습니다.
많은 쇼핑객은 셀프 계산대 에서 스캔하기 어려운 품목과 기타 문제 로 인해 미뤄졌다며 셀프 계산대 사용을 주저하고 있습니다 . 2021년 고객 경험 기술 회사인 Raydiant가 조사한 쇼핑객의 36%는 셀프 계산대 사용이 크게 증가했다고 답했으며 67%는 기계에서 어떤 종류의 오류를 경험했다고 말했습니다. Uniqlo와 같은 소매업체는 더 나은 기술을 제공하여 이러한 고객의 우려를 완화하는 것을 목표로 합니다 .
하지만 기술 도입은 단순히 쇼핑 경험 개선 뿐만은 아니라 전반적 제품 관리를 위함이기도 하다.
Mr. Tambara는 셀프 체크아웃 기계가 RFID로 Uniqlo의 공급망을 개선하기 위한 광범위한 노력의 일부라고 말했습니다. Theory와 Helmut Lang을 포함한 모든 패스트 리테일링 브랜드는 2017년부터 가격 태그에 RFID 칩을 내장하기 시작했습니다. 이를 통해 소매업체는 공장에서 창고 및 매장 내부까지 개별 품목을 추적할 수 있습니다. 이 데이터는 유니클로가 매장 재고의 정확성을 개선하고 수요에 따라 생산을 조정하며 공급망에 대한 가시성을 높이는 데 매우 중요하다고 회사는 말했습니다.
생성 인공지능에 관한 이야기만 주목받는 시기이지만, 오히려 최근의 몇 가지 사건이 블록체인에 관심을 기울여야 하는거 아닌지 생각하게 만들었다. State of Crypto 2023 자료 초반에 Web3에 관한 아이디어를 다시 한 번 정리하고 시장 상황을 확인할 수 있는 지표를 제공. (구글 슬라이드)
Data Is Great — But It’s Not a Replacement for Talking to Customers
by Graham Kenny, HBR
기업이 인사이트를 얻기 위한 방법으로 데이터에 과도하게 집중하는 것을 이야기하는 글이다. 은행들이 데이터로 고객을 분석하고 유통업도 대량의 데이터를 분석하며 빅데이터 푸시(big data push)를 선언했다는 사례를 언급한다. 하지만 데이터로 인사이트를 찾으려는 행동에 대한 우려를 표하며 진짜 성공은 도요타나 어도비처럼 고객의 소리를 듣는 것에서 왔다고 말한다.
데이터가 “정밀하게 부정확”하지 않은 경우 최신 컴퓨터 성능을 사용하여 고객의 구매 행동 패턴을 조사한다. 하지만 빅 데이터의 한계를 이해해라. 데이터는 역사적이며 정적이다. 과거에 대한 것이기 때문에 역사적이다. 당신의 고객은 데이터가 획득한 것에서 이동했을 가능성이 크다. 그리고 다른 컴퓨터 모델링과 마찬가지로 여러분이 묻고 싶지 않은 질문에 답할 수 없기 때문에 정적이다.[expand title=eng]
So, provided your data isn’t “precisely inaccurate” employ modern computer power to examine patterns in your customers’ buying behavior. But understand big data’s limitations. The data is historic and static. It’s historic because it’s about the past. Your customers have most likely moved on from what the data captures. And it’s static because, as with any computer modeling, it can never answer a question that you didn’t think to ask.[/expand]
직접 목소리를 듣는 인터뷰에서 오는 편향도 있을 수 있지만 사실 데이터를 들여다보기전에 이미 현장에서 일하고 있는 사람은 대부분 정답을 알고 있다.
Edison Research의 Tom Webster는 현재 팟 캐스트를 듣지 않는 청취자의 47 %가 팟 캐스트를 ‘구독’하면 비용이들 것이라고 생각하며 팟 캐스트의 성장을 걸림돌이 될 수 있는 것이라고 말합니다.[expand title=eng]
Tom Webster from Edison Research says 47% of people who don’t currently listen to podcasts think that ‘subscribing’ to a podcast will cost money, describing it as a stone in the shoe of podcasting’s growth run.[/expand]
우리나라에서는 용어가 정리 되지 않아서인지 사람들이 가지는 선입견이 크지 않은 것 같다. 유튜브에서는 구독과 가입(유료 후원)으로 되어 있다.
영국 예술가 Damien Hirst의 최신 프로젝트 The Currency는 두 가지 형태의 작품입니다. 작품의 물리적 형태는 손으로 그린 다채로운 점들로 덮여 있는 10,000장의 A4 용지입니다. 지폐와 같은 방식으로 각 시트에는 허스트의 홀로그램 이미지, 서명, 마이크로닷이 포함되어 있으며 일련 번호 대신 작은 개별 메시지가 있습니다.
작품의 두 번째 부분은 이 손으로 그린 각 시트에 해당 NFT(대체 불가능 토큰)가 있다는 것입니다. NFT는 블록체인으로 알려진 보안 온라인 원장에 존재하는 디지털 소유권 인증서입니다.
The Currency가 작동하는 방식은 수집가가 실제 작품을 즉시 구매하지 않는다는 것입니다. 대신 NFT에 대해 2,000달러를 지불하고 1년 동안 디지털 버전을 원하는지 아니면 실제 버전을 원하는지 결정해야 합니다. 수집가가 하나를 선택하면 다른 하나는 파괴됩니다.[expand title=eng]
English artist Damien Hirst’s latest project, The Currency, is an artwork in two forms. Its physical form is 10,000 unique hand-painted A4 sheets covered in colorful dots. In the same way as paper money, each sheet includes a holographic image of Hirst, a signature, a microdot, and—in place of a serial number—a small individual message.
The second part of the artwork is that each of these hand-painted sheets has a corresponding NFT (nonfungible token). NFTs are digital certificates of ownership that exist on the secure online ledgers that are known as blockchains.
The way The Currency works is that collectors will not be buying the physical artwork immediately. Instead, they will pay $2,000 for the NFT and then have a year to decide whether they want the digital or the physical version. Once the collector selects one, the other will be destroyed.[/expand]
화폐란 무엇인지 본질적인 속성에 대한 의문을 제기하는 프로젝트라고 말한다. 가치란 가치를 부여하는 커뮤니티의 맥락과 떨어져서 존재하기는 어려운데, 데미안 허스트의 프로젝트에는 두 가지 커뮤니티가 있다. 실제 예술 작품을 소유하고 그것에 가치를 부여하는 커뮤니티와 디지털 버전을 소유하고 그것이 진짜 소유라고 생각하는 커뮤니티이다. 구매한 사람들이 어떤 것을 선택할지는 1년이 지나 알게 될 것이다.
GPT-3 모델을 만든 OpenAI에서 공개한 또 다른 ML 프로젝트인 Codex. 자연어 입력을 통해 소프트웨어 코드를 작성할 수 있도록 만들어준다. 사이트에는 간단한 탄막 피하기류 게임 만드는 영상부터 데이터 분석에 이르기까지 몇 가지 사례가 나와있다.
유튜브 영상을 보면 데모를 볼 수 있는데 생각하고 판단하는 인공지능은 아니지만 많은 부분을 자동화하는 모습을 확인할 수 있다.
프로그래머가 무엇을 빌드해야 하는지 알게 되면 코드를 작성하는 행위는 (1) 문제를 더 단순한 문제로 분해하고 (2) 이러한 단순한 문제를 이미 존재하는 기존 코드(라이브러리, API 또는 함수)에 매핑하는 것으로 생각할 수 있습니다. 후자의 활동은 아마도 프로그래밍에서 가장 재미없는 부분(그리고 진입 장벽이 가장 높음)이며 OpenAI Codex가 가장 뛰어난 부분입니다.[expand title=eng]
Once a programmer knows what to build, the act of writing code can be thought of as (1) breaking a problem down into simpler problems, and (2) mapping those simple problems to existing code (libraries, APIs, or functions) that already exist. The latter activity is probably the least fun part of programming (and the highest barrier to entry), and it’s where OpenAI Codex excels most.[/expand]
머신러닝으로 “이미지 인식이 되네. 자연어 처리가 되네!”라고 했던게 2014년 언저리부터 지속되어 온 일이라면, 이러한 것으로 무엇을 어떻게 더 할 수 있을지에 대한 내용을 보는 것이 새로운 흐름이 되지 않았나 싶다.