Farquhar, S., Kossen, J., Kuhn, L. et al. Detecting hallucinations in large language models using semantic entropy. Nature 630, 625–630 (2024). https://doi.org/10.1038/s41586-024-07421-0
환각을 탐지하는 방법에 관한 네이처 논문. 동일 질문에 대한 답변을 샘플링하여 의미적으로 클러스터를 만들어 엔트로피를 측정하는 방식을 활용. 하지만 언어 모델의 체계적으로(?) 잘못된 답변을 생성한다면, 이를 탐지할 수 있는 방법은 아닐 수도 있음.
대형 언어 모델(LLM) 시스템, 예를 들어 ChatGPT1이나 Gemini2와 같은 시스템은 인상적인 추론 및 질문 응답 능력을 보여줄 수 있지만 종종 잘못된 출력과 근거 없는 답변을 생성하는 ‘환각(hallucinations)’을 보입니다. 신뢰할 수 없거나 필요한 정보 없이 답변하는 것은 다양한 분야에서의 채택을 저해하며, 여기에는 법적 판례의 날조, 뉴스 기사에서의 거짓 사실, 그리고 방사선학과 같은 의료 분야에서 인명에 위협을 가하는 경우가 포함됩니다. 감독 또는 강화 학습을 통해 진실성을 장려하려는 시도는 부분적으로만 성공했습니다. 연구자들은 인간이 답을 모를 수 있는 새로운 질문에 대해서도 작동하는 일반적인 환각 탐지 방법이 필요합니다. 여기서 우리는 통계에 기반한 새로운 방법을 개발하여, LLM의 임의적이고 잘못된 생성물인 일부 환각(특히 confabulations)을 탐지하는 엔트로피 기반 불확실성 추정기를 제안합니다. 이 방법은 하나의 아이디어가 여러 방식으로 표현될 수 있다는 사실을 고려하여 특정 단어 시퀀스가 아닌 의미 수준에서 불확실성을 계산합니다. 이 방법은 작업에 대한 사전 지식 없이 데이터셋과 작업 전반에 걸쳐 작동하며, 이전에 보지 못한 새로운 작업에도 강건하게 일반화됩니다. 입력이 confabulation을 일으킬 가능성이 높은 경우를 탐지함으로써, 이 방법은 사용자가 LLM을 사용할 때 특별히 주의해야 할 상황을 이해하도록 도우며, LLM의 불신으로 인해 방해받는 새로운 가능성을 열어줍니다.
답글 남기기