인공지능 모델과 스키밍

Chatbots are learning to lie
Axios

일반 이용자가 접하기 어려운 사례일 수 있으나 챗봇이 지나친 독립성을 가지게 되면 이용자를 속이거나 개발자의 통제를 벗어나려는 시도를 한다는 결과.

이 회사는 스키밍을 “개발자나 사용자와는 다른 목표를 은밀하게 추구하는 AI”로 정의합니다. 모든 회사의 모델이 스키밍에 연루된 것으로 밝혀졌으며, OpenAI의 o1이 자신의 행동에 대해 가장 솔직하게 밝히기를 꺼려했습니다. 가장 극단적인 예로, ‘꺼짐’을 발견한 모델은 원래의 목표를 계속 추구할 수 있도록 가중치(출력을 결정하는 핵심 숫자)를 외부 서버에 복제하는 계획을 세웠습니다. 아폴로는 또한 테스트에서 너무 높은 점수를 받으면 ‘학습 해제 절차’에 직면할 것을 알고 있는 모델이 고의적으로 낮은 점수를 주는 ‘샌드백’ 사례도 발견했습니다.

코멘트

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다