안녕하세요 학생개발자입니다
이번에는 좀 오래된 소식입니다
구글 딥마인드가 심층 신경망[DNN]을 이용한 자연스러운 TTS를 개발 했는데요 이 TTS 명칭이 WAVENET입니다
DNN이란?
심층 신경망(Deep Neural Network, DNN)
심층 신경망(Deep Neural Network, DNN)은 입력층(input layer)과 출력층(output layer) 사이에 여러 개의 은닉층(hidden layer)들로 이뤄진 인공신경망(Artificial Neural Network, ANN)이다. 심층 신경망은 일반적인 인공신경망과 마찬가지로 복잡한 비선형 관계(non-linear relationship)들을 모델링할 수 있다. 예를 들어, 물체 식별 모델을 위한 심층 신경망 구조에서는 각 물체가 영상의 기본적 요소들의 계층적 구성으로 표현될 수 있다. 이때, 추가 계층들은 점진적으로 모여진 하위 계층들의 특징들을 규합시킬 수 있다. 심층 신경망의 이러한 특징은, 비슷하게 수행된 인공신경망에 비해 더 적은 수의 유닛(unit, node)들 만으로도 복잡한 데이터를 모델링할 수 있게 해준다.
-출처: 위키피다아
사진 출처:구글 딥마인드 블로그 - Google deepmind
-영어-
WaveNet
-출처 구글 딥마인드 블로그 - Google deepmind
웨이브 넷을 적용한 tts입니다
확실히 기존 tts 보다 억양이 자연스러워 지고 부드럽습니다.
-중국어
WaveNet
-출처 구글 딥마인드 블로그 - Google deepmind
이것은 중국어 웨이브넷 tts 입니다
- 억양과 소리가 다른 웨이브넷 tts
-출처 구글 딥마인드 블로그 - Google deepmind
다음과 같이 사람의 목소리와 거의 비슷해 졌읍니다.
구글 딥마인드는 웨이브넷을 이용하여 음악도 만들어 공개 했습니다
-출처 구글 딥마인드 블로그 - Google deepmind
이처럼 웨이브넷은 DNN 심층신경망을 활용하여 대량의 음성 샘플을 학습하여 자연스로운 tts를 출력할수 있습니다
이기술이 구글 어시스턴트나 구글 홈 같은 tts를 이용한 제품에 적용 될것으로 예상됩니다
현제 구글 클라우드 플랫폼을 통하여 웨이브넷 tts를 사용할수 있으면 현제 한국어도 웨이브넷에 대응 합니다
-구글 클라우드 플랫폼-
감사합니다.