お品書き
論文概要
- published: 12 Jun 2018
- ISSN: 10495258
- 論文リンク: https://arxiv.org/abs/1806.04558
- 音声サンプルページ: https://google.github.io/tacotron/publications/speaker_adaptation/
著者は何を達成したの?
- サンプル音声から、その人の声を生成できるtext-to-speech(TTS)モデルを提案
- サンプル音声は5秒程度
- 高品質の音声を生成できる
- 存在しない人物の声も合成できる
- ユーザー調査により有効性を証明
生成した音声データ: https://google.github.io/tacotron/publications/speaker_adaptation/
この手法のキーポイントは何?
- 既存の手法を組み合わせたこと
- それぞれの要素ごとに分散して学習できること
自分の研究にどう役立つか?
- 声優の声の自動生成とか
次に読む論文は?
- Generalized End-to-End Loss for Speaker Verification
- Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions
- WaveNet: A Generative Model for Raw Audio
結果
今回の研究は、生成された音声が素晴らしいので、そこから見ていきましょう。
以下のサイトにアクセスすると、生成した音声サンプルが聞くことができます。
https://google.github.io/tacotron/publications/speaker_adaptation/
実際の音声サンプルから合成された音声
実際に音声合成された結果を見てみましょう。
上記のサイトの「Speaker Adaptation for Unseen Speakers」部分に当たります。
結果の見方を説明します。
最初の横の行は、サンプル音声です。
見てみると、それぞれが5秒程度しかないことがわかります。
この短い音声から、声が合成されます。
当然、このサンプル音声は学習データには含まれていません。
その下は、サンプル音声を元に合成された音声を示しています。
自然な声が生成されていることがわかります。
縦の列は、それぞれのサンプルユーザーを示しています。
実際に聞くと、サンプル音声の人物が喋っているかのような音声が生成されていることがわかると思います。
存在しない人物の音声
提案された手法は、学習した潜在空間を利用することで、実際には存在しない人物の声も作ることができます。
上記のサイトの「Fictitious Speakers」部分に当たります。
前説と同様に、下の方に生成された音声を聞くことができます。
上にあるのは、生成したスペクトグラムデータです。
実際に聞くと、人間の声のように聞こえます。
しかし、これは生成した音声の声で、サンプルとなる人物も存在しません。
手法
今回の手法は、以下の3つのパーツに分けることができ、それぞれは、ニューラルネットワークで既存の手法を用いています。
- Speaker Encoder: サンプル音声を解析する
- Synthesizer: 音のスペクトグラムを生成
- Vocoder: スペクトグラムを元に音声を合成
特筆すべきことは、それぞれのネットワークは独立して学習できるということです。
しかも、別々のデータセットを使うことができます。
つまり、それぞれのネットワークを別々のコンピュータで学習させて、組み合わせることで音声合成が可能になります。
これは、非常に利便性の高い手法だと言えます。
では、それぞれのモジュールについて簡単に説明を行います。
Speaker Encoder
ここでは、サンプル音声を解析して、潜在空間のデータを次のSynthesizerモジュールへと渡します。
このモジュールに使われているニューラルネットワークは、以下の研究のものを使っています。
https://arxiv.org/abs/1710.10467
Synthesizer
ここでは、合成したい文章の音素データと、Speaker Encoderで解析されたサンプル音声から、音のスペクトグラムを生成します。
このモジュールに使われているニューラルネットワークは、以下の研究のものを使っています。
https://arxiv.org/abs/1712.05884
Vocoder
最後に生成されたスペクトグラムから、実際の音声を生成します。
ここでは、有名なWavenetが利用されています。
https://arxiv.org/abs/1609.03499
まとめ
今回の研究では、たった5秒の音声データから声を合成できてしまうことを示した非常に興味深いものでした。
私の場合、友達がDeepFakesの研究をしているので、そちらへの応用を考えながら読んでいました。
誤解や記述ミスなどもあるかと思いますが、コメント欄から指摘してもらえるとありがたいです!
論文読み方を知りたい方はコチラ記事で読み方を解説しています。