【Google最新研究】ディープラーニングにより5秒の音声から自然な音声合成!

機械学習

論文概要

Title


著者は何を達成したの?

  • サンプル音声から、その人の声を生成できるtext-to-speech(TTS)モデルを提案
    • サンプル音声は5秒程度
    • 高品質の音声を生成できる
  • 存在しない人物の声も合成できる
  • ユーザー調査により有効性を証明

生成した音声データ: https://google.github.io/tacotron/publications/speaker_adaptation/

この手法のキーポイントは何?

  • 既存の手法を組み合わせたこと
  • それぞれの要素ごとに分散して学習できること

自分の研究にどう役立つか?

  • 声優の声の自動生成とか

次に読む論文は?

結果

今回の研究は、生成された音声が素晴らしいので、そこから見ていきましょう。

以下のサイトにアクセスすると、生成した音声サンプルが聞くことができます。

Audio samples from "Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis"

実際の音声サンプルから合成された音声

実際に音声合成された結果を見てみましょう。
上記のサイトの「Speaker Adaptation for Unseen Speakers」部分に当たります。

結果の見方を説明します。

最初の横の行は、サンプル音声です。
見てみると、それぞれが5秒程度しかないことがわかります。
この短い音声から、声が合成されます。
当然、このサンプル音声は学習データには含まれていません。

その下は、サンプル音声を元に合成された音声を示しています。
自然な声が生成されていることがわかります。

縦の列は、それぞれのサンプルユーザーを示しています。

実際に聞くと、サンプル音声の人物が喋っているかのような音声が生成されていることがわかると思います。

存在しない人物の音声

提案された手法は、学習した潜在空間を利用することで、実際には存在しない人物の声も作ることができます。
上記のサイトの「Fictitious Speakers」部分に当たります。

前説と同様に、下の方に生成された音声を聞くことができます。
上にあるのは、生成したスペクトグラムデータです。

実際に聞くと、人間の声のように聞こえます。
しかし、これは生成した音声の声で、サンプルとなる人物も存在しません

手法

Title

今回の手法は、以下の3つのパーツに分けることができ、それぞれは、ニューラルネットワークで既存の手法を用いています。

  • Speaker Encoder: サンプル音声を解析する
  • Synthesizer: 音のスペクトグラムを生成
  • Vocoder: スペクトグラムを元に音声を合成

特筆すべきことは、それぞれのネットワークは独立して学習できるということです。
しかも、別々のデータセットを使うことができます。

つまり、それぞれのネットワークを別々のコンピュータで学習させて、組み合わせることで音声合成が可能になります。

これは、非常に利便性の高い手法だと言えます。

では、それぞれのモジュールについて簡単に説明を行います。

Speaker Encoder

ここでは、サンプル音声を解析して、潜在空間のデータを次のSynthesizerモジュールへと渡します。
このモジュールに使われているニューラルネットワークは、以下の研究のものを使っています。

Generalized End-to-End Loss for Speaker Verification
In this paper, we propose a new loss function called generalized end-to-end (GE2E) loss, which makes the training of speaker verification models more efficient ...

Synthesizer

ここでは、合成したい文章の音素データと、Speaker Encoderで解析されたサンプル音声から、音のスペクトグラムを生成します。
このモジュールに使われているニューラルネットワークは、以下の研究のものを使っています。

Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions
This paper describes Tacotron 2, a neural network architecture for speech synthesis directly from text. The system is composed of a recurrent sequence-to-sequen...

Vocoder

最後に生成されたスペクトグラムから、実際の音声を生成します。
ここでは、有名なWavenetが利用されています。

WaveNet: A Generative Model for Raw Audio
This paper introduces WaveNet, a deep neural network for generating raw audio waveforms. The model is fully probabilistic and autoregressive, with the predictiv...

まとめ

今回の研究では、たった5秒の音声データから声を合成できてしまうことを示した非常に興味深いものでした。
私の場合、友達がDeepFakesの研究をしているので、そちらへの応用を考えながら読んでいました。

誤解や記述ミスなどもあるかと思いますが、コメント欄から指摘してもらえるとありがたいです!



論文読み方を知りたい方はコチラ記事で読み方を解説しています。

ディープラーニング研究者のAndrew Ng先生に学ぶ「論文の読み方」
今回は、研究をする上で避けては通れない「論文の読み方」について、ディープラーニングの権威であるAndrew Ng先生が答えてくれています。元ネタは、こちらの動画です。前半は論文の読み方、後半はAIエンジニアのキャリア形成を解説してくれ...

コメント

タイトルとURLをコピーしました