Meta’s move on AI bias raises risk, eyebrows
Axios
메타는 우파의 각성에 대한 반발을 수용하여 인공지능 모델에서 편향을 제거하려고 한다고. 몇 개의 테스트에서 라마는 우편향적, 챗지피티는 좌편향적 답변을 보인다고 알려지기도 했다. 하지만 생각보다 간단한 일은 아닌듯
작동 방식: Hugging Face의 커뮤니티 및 협업 책임자 바이바브 스리바스타브(Vaibhav Srivastav)는 Axios에 다음과 같이 설명했다.
- 모델 학습 전 단계에서는 어떤 데이터를 포함·제외할지, 그리고 각각의 데이터 출처에 어떤 가중치를 둘지를 결정할 수 있다.
- 후기 학습 단계(파인튜닝)에서는 여러 기법을 사용해 모델의 방향을 조정할 수 있다.
대표적으로 인간 피드백 기반 강화학습(RLHF) 방식은 선호되는 응답 유형을 모델에 학습시키는 것이다.- 또 다른 방법으로는 시스템 레벨 프롬프트를 추가해 답변 방식 자체를 바꾸는 것이다.
그러나 이 방식은 거칠고 예측 불가능한 결과를 낳을 수 있다. 실제로 Meta와 Google은 이 방식으로 편향을 보정하려다, 흑인 미국 건국의 아버지나 다양한 인종의 나치 병사 같은 역사적으로 말이 안 되는 이미지를 생성한 바 있다.[ … ] Meta와 Grok는 다른 AI 모델들이 좌편향되어 있다고 비판하지만, 전문가들은 실상은 훨씬 복잡하다고 말한다.
편향의 주요 원천은 훈련 데이터이다. 대부분의 주요 AI 모델은 훈련 데이터의 구체적인 내용을 공개하지 않지만, 인터넷에 공개된 대부분의 영어 콘텐츠를 크롤링한 것으로 알려져 있다.
이 때문에 모델은 영어(특히 미국식 영어)에 담긴 관점에 편향될 수밖에 없다.
답글 남기기