ちょっと話題の記事

[Amazon Transcribe] 日本語対応したので、Pollyの音声を文字起こししてみました。

2019.11.22

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

1 はじめに

CX事業本部の平内(SIN)です。

Amazon Transcribeは、自動音声認識(ASR)サービスであり、音声からテキストへの変換を行うことが出来ます。

この、Amazon Transcribeが、いくつかの言語とともに日本語にも対応したと言うことです。

Amazon Transcribe Now Supports Speech-to-text in 7 Additional Languages

これまで、日本語の文字起こしは、AWSで出来なかったため、他のサービスを色々組み合わせていましたが、これからは、AWSだけで完結できそうです。

と言うことで、早速、ちょっと試してみました。

2 Pollyでサンプル作成

Amazon Pollyで変換元となる音声データを作成して見ました。

文章はデフォルトのままです。MP3ダウンロードでファイルを取得します。

Amazon Transcribeでは、音源のサンプルレートを指定するようになているのですが、ダウンロードしたファイルを、とりあえず、ffmpegで 48Kbpsに変換しました。

ffmpeg -i speech_20191122003204457.mp3 -ar 48000 output.mp3

3 S3へのアップロード

コンソールから操作する場合、変換元データは、S3バケットで指定するようになっていたので、いったんS3に置きます。

4 Amazon Transcribe

いよいよ、Amazon Transcribeによる変換です。コンソールから、Create jobをクリックします。

設定は、以下のとおりです。

  • Name: TEST(とりあえず)
  • Language: Japanese (Japan)
  • Input file location on S3: S3のファイルを指定
  • Format - optional: mp3
  • Audio sampling rate (Hz) - optional : 48000

その他は、デフォルトのまま使用しました。

Createボタンを押せば、変換開始です。

5 結果

Statusin progress から Complate に変わったら変換完了です。

ほぼ100%変換成功です。

API使用時のパラメータ及び、戻り値も、同画面の下に表示されていました。

6 最後に

遂に日本語に対応\(^o^)/ってことで、とりあえず、触ってみました。 次は、APIから利用して、何か作ってみたいです。