Deep Learning for Siri’s Voice: On-device Deep Mixture Density Networks for Hybrid Unit Selection Synthesis

애플은 지난 달 Machine Learning Journal을 만들었다. 머신 러닝이 부족한 기업이라는 이미자가 있는데 인력을 모으기 위한 대외적인 홍보용 느낌이라고 해야할까. 기존 peer-review 저널을 대체한다기 보다는 공개적으로 접근할 수 있는 대중적인 채널이 된다는 느낌이다. 저널에 대해 여러가지 이야기는 많지만 최근 올라온 글은 머신 러닝을 통해 시리 음성을 만드는 것을 학습시키는 결과에 대한 글이 올라왔다.

Siri는 음성 합성을 사용하여 커뮤니케이션하는 개인 비서다. iOS 10에서 시작하여 iOS 11의 새로운 기능을 계속 사용하면서, Siri 음성을 딥 러닝에 기반한다. 결과적으로 목소리는 더 자연스럽고 매끄러워서 Siri의 개성이 빛나게합니다. 이 기사에서는 Siri의 목소리에 기반한 심층 학습 기반 기술에 대해 자세히 설명합니다.
eng

Siri is a personal assistant that communicates using speech synthesis. Starting in iOS 10 and continuing with new features in iOS 11, we base Siri voices on deep learning. The resulting voices are more natural, smoother, and allow Siri’s personality to shine through. This article presents more details about the deep learning based technology behind Siri’s voice.

저널 글 마지막 부분에 iOS 버전별로 달라진 시리 음성을 확인할 수 있다.