[新機能] Amazon Pollyにtime-driven prosody機能が追加されました

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

はじめに

今回ご紹介する新機能はこちら!

time-driven prosody機能とは「定義した時間に基づいてスピーチレートを自動的に調整する」機能です。例えばある文章に対して1分と指定すれば、その文章を1分以内に読み上げてくれます。上記で紹介されていたユースケースは翻訳です。例えば英語で2分かけて喋っている動画をそのままドイツ語に翻訳すると、2分より長くなってしまい、動画の映像と音声にズレが発生します。そんなときに2分という時間を指定すれば、2分以内に読み上げてくれるので、映像と音声の長さを簡単に調整し合わせることが出来ます。

まぁ、百聞は一件にしかず。まずはやってみましょう!

やってみた

time-driven prosody機能はSSMLタグprosody amazon:max-durationで指定します。単位はs(秒)かms(ミリ秒)のどちらかです。

まずは指定なし。7秒かかってます。

<speak>けふのうちに
とほくへいってしまふわたくしのいもうとよ
みぞれがふっておもてはへんにあかるいのだ</speak>

では5s(5秒)を指定してみます。ちょっと早くなります。

<speak><prosody amazon:max-duration="5s">
けふのうちに
とほくへいってしまふわたくしのいもうとよ
みぞれがふっておもてはへんにあかるいのだ
</prosody></speak>

1秒とかにしちゃうと、もう聞き取ることが出来ません。

<speak><prosody amazon:max-duration="1s">
けふのうちに
とほくへいってしまふわたくしのいもうとよ
みぞれがふっておもてはへんにあかるいのだ
</prosody></speak>

さいごに

今回の機能はあくまで最大時間を定義するものなので、読み上げのレートを早くすることは出来るものの、遅くすることは出来ません。そのうちぴったり指定時間に合わせるために遅くすることも出来るようになるかもしれませんね。