[新機能] Amazon PollyがNeural TTSに対応しました

2019.08.30

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

はじめに

この記事は「ブログにしていなかった新機能を拾っていくぞ」のコーナーです。

今回ご紹介する新機能は2019年7月30日にリリースされたこちら！

Amazon PollyがNeural TTS(text-to-speech)に対応しました。Neural TTSは機械学習を使用してより自然な、人間が話しているっぽい感じでテキストを読み上げる手法です。

対応している音声は以下の11種類。

言語	音声名	性別
English (British) (en-GB)	Amy Emma Brian	女性女性男性
English (US) (en-US)	Ivy Joanna Kendra Kimberly Salli Joey Justin Kevin Matthew	女性女性女性女性女性男性男性男性男性

更に今回、Neural TTSとSSML(音声合成マークアップ言語)を使って、ニュースキャスターのように読み上げさせることができるようになりました。この機能はMatthewとJoannaの音声でのみ使用可能です。

例としてMatthewでやってみましょう。CNNで配信されているこの記事の文章を使用させて頂きます。

まずは音声エンジンを[スタンダード]で実行。

次に音声エンジンを[ニューラル]に変更して実行してみます。

交互に聴いてもらえれば分かるかと思うのですが、音声が柔らかくなってます。スタンダードでは音にザラつきがあったり発音が潰れている箇所があるのですが、ニューラルだとスームスです。

更に、ニュースキャスターのSSMLを使ってみましょう。設定は以下のように対象のテキストをSSMLタグで囲みます。

<amazon:domain name="news">text</amazon:domain>

結果がこちら。

海外でテレビを付けて地元のニュースを見ている気分になりますね。イントネーションの付け方がSSMLタグ無しと全然違います。

今後は、例えばロック歌手とかアイドルみたいな読み上げ方も出てくると、もっと使いみちのバラエティが広がるかもしれませんね。楽しみです。