[Amazon Transcribe] 日本語対応したので、Pollyの音声を文字起こししてみました。

2019.11.22

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

1 はじめに

CX事業本部の平内（SIN)です。

Amazon Transcribeは、自動音声認識（ASR）サービスであり、音声からテキストへの変換を行うことが出来ます。

この、Amazon Transcribeが、いくつかの言語とともに日本語にも対応したと言うことです。

これまで、日本語の文字起こしは、AWSで出来なかったため、他のサービスを色々組み合わせていましたが、これからは、AWSだけで完結できそうです。

と言うことで、早速、ちょっと試してみました。

Amazon Pollyで変換元となる音声データを作成して見ました。

文章はデフォルトのままです。MP3ダウンロードでファイルを取得します。

Amazon Transcribeでは、音源のサンプルレートを指定するようになているのですが、ダウンロードしたファイルを、とりあえず、ffmpegで 48Kbpsに変換しました。

ffmpeg -i speech_20191122003204457.mp3 -ar 48000 output.mp3

コンソールから操作する場合、変換元データは、S3バケットで指定するようになっていたので、いったんS3に置きます。

いよいよ、Amazon Transcribeによる変換です。コンソールから、Create jobをクリックします。

設定は、以下のとおりです。

その他は、デフォルトのまま使用しました。

Createボタンを押せば、変換開始です。

Statusが in progress から Complate に変わったら変換完了です。

ほぼ１００％変換成功です。

API使用時のパラメータ及び、戻り値も、同画面の下に表示されていました。

遂に日本語に対応＼(^o^)／ってことで、とりあえず、触ってみました。次は、APIから利用して、何か作ってみたいです。