【新機能】Amazon PollyのSynthesizeSpeechの文字制限が2倍になりました

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

はじめに

地味なアップデートも拾っていくぞのコーナー。今日の新機能はこちら!

Amazon PollyのSynthesizeSpeechは、与えられたテキストを音声データとして合成します。このSynthesizeSpeechをAPIとして操作する際には制限があります。これまでの入力テキストの最大長は1,500ビット文字、SSMLタグを含め3,000ビット文字でした。またオーディオ出力の最大長は5分で、5分以上の音声はカットされていました。

今回のアップデートにより、入力テキストの最大長が3,000ビット文字、SSMLタグを含め6,000ビット文字と、2倍になりました。合わせてオーディオ出力の最大長も10分に変更されました。

やってみた

Amazon Pollyのコンソールで、[テキスト読み上げ機能]を開きます。プレーンテキストに長文を入力すると、最大3000文字であることが表示されます。

読み上げた音声。これだけ長文でも2分34秒です。

SSMLを含めた場合は最大6000文字であることが表示されます。

x-slowで喋らせても4分4秒でした。10分を超えることはほとんど無さそうです。

さいごに

これで更に長文をPollyに喋ってもらうことが出来るようになりました。これまでと比較して分割回数を半分に減らすことが出来ますね。