The AI Industry Is Stuck on One Very Specific Way to Use a Chatbot
인공지능을 어떻게 활용해야 하는지 여전히 많은 사람들이 혼란스러워하는 것 같다. “나 대신 휴가 예약해줘”와 같은 방식은 현실적 활용 사례라 보기 어렵다.
상하이 푸단대학교, 오하이오주립대학교, 펜실베이니아주립대학교, 메타의 연구팀도 비슷한 결론에 도달했습니다. 이들은 “2022년 3월 25일부터 3월 27일까지 3일간 잭슨빌에서 출발하여 로스앤젤레스로 향하는 혼자 여행하는 여행자의 여행 일정을 만들어 주세요”와 같은 1,000개의 샘플 쿼리에 대해 챗봇을 테스트했습니다. 이 여행의 예산은 현재 2,400달러로 설정되어 있습니다.” 그런 다음 챗봇이 프롬프트의 모든 기준을 충족하는 답변을 제공할 수 있는지 평가했습니다. 챗봇은 전반적으로 거의 실패했습니다. 테스트한 4개 모델 중 OpenAI의 GPT-4 모델이 가장 우수한 성능을 보였지만, 이 모델도 1,000개 중 0.6%인 6개 쿼리에만 성공적으로 답변했습니다. (이 연구는 아직 동료 검토를 거치지 않았습니다.)
챗봇은 다양한 요인으로 인해 실패했습니다: 챗봇은 추론 오류를 범하기도 하고, 때로는 엉뚱한 말을 지어내기도 했습니다. “이 점은 아무리 강조해도 지나치지 않습니다: 이런 종류의 도구는 의사 결정 과정을 대체하는 것이 아니라 보완하는 것입니다.”라고 AI 회사인 Hugging Face의 커뮤니케이션 책임자인 브리짓 투시그넌트는 말합니다.
답글 남기기