Amazon PollyのNeural TTSで日本語を選択出来るようになりました

2021.12.07

いわさです。

Amazon Pollyはテキストを音声に変換するサービスです。
Pollyのニューラルエンジンでとうとう日本語が利用可能になりました。

ニューラルとは

Pollyでは読み上げのエンジンが2つ用意されており、ニューラルとスタンダードがあります。
ニューラルTTS(NTTS)とも呼ばれ、スタンダードよりも高品質の音声を生成出来るシステムです。
ニューラルでは、可能な限り自然で人間に似たテキスト読み上げ音声を生成します。

NTTS登場時点では日本語は対応していませんでした。

ここ1年ほどで様々な言語が追加されてきており、今では14言語が対応されています。

Neural Voices - Amazon Polly

ためしてみる

日本語で利用可能になりましたが、本日時点では対応している音声はTakumiのみです。
日本語の音声はTakumiとMizukiの2つが選択出来ますが、Mizukiはまだスタンダードのみしか選択出来ません。

以下のツイートの一部分を、音声変換してみたいと思います。

もちろんAPIやCLIでも対応していますが、マネジメントコンソールを利用すると簡単に音声変換とダウンロードが出来ますのでこちらを使ってみます。

スタンダード Takumi

ニューラル Takumi

すごい。全然違いますね。

なんだろう、速度にメリハリがある感じなんですかね。
スタンダードと比較するとやはり、かなり滑らかというか人間に近い感じがします。

料金

Amazon Pollyでは文字数での従量課金になりますが、ニューラルとスタンダードでは料金が異なっていますのでご利用にあたってはご注意ください。
ニューラルはスタンダードの4倍、文字あたりの単価が高いです。

ニュースキャスタースタイル

一部のニューラル音声ではSSMLを使った、ニュースキャスタースタイルを適用することが可能です。
ニューラルTakumiは本日時点ではニュースキャスタースタイルはまだ対応していません。

本日時点で対応しているのは、以下の3言語4音声となっています。
以前より追加はされているので今後範囲が拡大される可能性はありますね。

  • 英語 (米国)(en-US)のMatthew, Joanna
  • スペイン語 (米国)(es-US)のLupe
  • 英語 (英国)(en-GB)のAmy

さいごに

本日はAmazon Pollyにニューラルで日本語を使ってみました。
スタンダードでも読み上げとしては十分ですが、コンシューマー向けにより高品質な読み上げを提供したいシーンではニューラルが与える印象は結構違ってくるんじゃないかなと思います。

Mizukiの対応も期待したいところですね。

Pollyをご利用されている方で音声品質をより自然なものにしたいとお考えの方は日本語に対応したニューラル機能を是非お試しください。