[アップデート] Amazon PollyでConversational Speaking Style voices(会話型スタイル)がサポートされました

Amazon Pollyで会話型スタイルによる発話が可能となり、人間の会話に近い、よりフレンドリーな音声を合成できるようになりました。
2019.11.26

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

Amazon Pollyで、人間の会話に近い雰囲気で発話させることができる Conversational speaking style voices(会話型スタイル) がサポートされました!

【AWS公式】Amazon Polly launches Conversational Speaking Style voices

Amazon Pollyとは

Amazon Polly(以下、Polly)とは、機械学習を活用したテキスト読み上げ(TTS, text-to-speech)が行えるサービスで、文章を人間に近い音声に合成します。

Neural TTSと会話型スタイル

今年の7月、Pollyはニューラルネットワークベースの機械学習モデルを活用したNeural TTS(ニューラルテキスト読み上げ、NTTS)に対応し、より人間に近い自然な話し方で発話させることができるようになりました。

[新機能] Amazon PollyがNeural TTSに対応しました

上記エントリでも触れられていますが、Neural TTSにSSMLを組み合わせることで、ニュースキャスターのような話し方で発話させることもできます。

今回のアップデートでは、こちらに「会話型スタイル」が追加されました。 SSMLタグを指定することで、人間が会話している最中の発話に近い、よりフレンドリーな発話をさせることができるようになりました。

2019/11/26時点では、対応している言語は英語(米国)のみで、以下の2音声で会話型スタイルを適用できます。

  • Joanna(女性)
  • Matthew(男性)

Pollyに発話させてみる

それでは実際にやっていきましょう。 Amazon Pollyをバージニア北部リージョンで開きます。

「テキスト読み上げ機能」の画面で SSMLタブを開き、会話型スタイルのSSMLタグ``を含めた文章を指定します。

<speak>
  <amazon:domain name="conversational">
    Hi! My name is Joanna. I will read any text you type here.
    Goodbye.
  </amazon:domain>
</speak>

他、設定は以下のようにします。

  • エンジン: ニューラル
  • 言語とリージョン: 英語(米国)
  • 音声: Joanna

早速音声を聴いてみましょう。 合成された音声は以下のようになります。

  • ニューラルエンジン + 会話型スタイル

これだけだと少しわかりにくいので、比較のためにエンジンやSSMLの設定を変えてみます。

  • スタンダードエンジン

  • ニューラルエンジン(SSML指定なし)

  • ニューラルエンジン + ニュースキャスター

他の音声と比較すると、会話型スタイルでは挨拶の抑揚がわかりやすく変化しており、フレンドリーな発話になっていますね。

おわりに

Pollyで人間の会話中の発話に近い「会話型スタイル」が指定できるようになりました。 よりフレンドリーな発話が可能になったことで、Alexaスキルなどの対話型音声アプリケーションにも組み込みやすくなったのではないかと思います。

それでは。