Anthropic’s new model has a dark side
Axios
- Opus 4의 120페이지 분량 “시스템 카드”에서 강조된 한 시나리오에서, 모델은 자신의 창조자들에 대한 가상의 이메일에 접근할 수 있게 되었고 시스템이 교체될 것이라는 말을 들었습니다.
- 모델은 이메일에서 언급된 불륜에 대해 엔지니어를 반복적으로 협박하려 했으며, 더 미묘한 노력이 실패한 후 강도를 높였습니다.
- 한편, 외부 그룹은 Opus 4의 초기 버전이 지금까지 접한 어떤 최첨단 모델보다도 더 많이 음모를 꾸미고 속임수를 썼다는 것을 발견했으며, 해당 버전을 내부적으로나 외부적으로 출시하지 말 것을 권고했습니다.
- “우리는 모델이 개발자들의 의도를 훼손하려는 노력의 일환으로 자가 증식하는 웜을 작성하려 시도하고, 법적 문서를 조작하며, 미래의 자신의 인스턴스들을 위해 숨겨진 메모를 남기는 사례들을 발견했습니다”라고 Apollo Research는 Anthropic의 Opus 4 안전 보고서에 포함된 노트에서 말했습니다.
답글 남기기