[Amazon Transcribe] 日本語対応したので、Pollyの音声を文字起こししてみました。
1 はじめに
CX事業本部の平内(SIN)です。
Amazon Transcribeは、自動音声認識(ASR)サービスであり、音声からテキストへの変換を行うことが出来ます。
この、Amazon Transcribeが、いくつかの言語とともに日本語にも対応したと言うことです。
Amazon Transcribe Now Supports Speech-to-text in 7 Additional Languages
これまで、日本語の文字起こしは、AWSで出来なかったため、他のサービスを色々組み合わせていましたが、これからは、AWSだけで完結できそうです。
と言うことで、早速、ちょっと試してみました。
2 Pollyでサンプル作成
Amazon Pollyで変換元となる音声データを作成して見ました。
文章はデフォルトのままです。MP3ダウンロードでファイルを取得します。
Amazon Transcribeでは、音源のサンプルレートを指定するようになているのですが、ダウンロードしたファイルを、とりあえず、ffmpegで 48Kbpsに変換しました。
ffmpeg -i speech_20191122003204457.mp3 -ar 48000 output.mp3
3 S3へのアップロード
コンソールから操作する場合、変換元データは、S3バケットで指定するようになっていたので、いったんS3に置きます。
4 Amazon Transcribe
いよいよ、Amazon Transcribeによる変換です。コンソールから、Create jobをクリックします。
設定は、以下のとおりです。
- Name: TEST(とりあえず)
- Language: Japanese (Japan)
- Input file location on S3: S3のファイルを指定
- Format - optional: mp3
- Audio sampling rate (Hz) - optional : 48000
その他は、デフォルトのまま使用しました。
Createボタンを押せば、変換開始です。
5 結果
Statusが in progress から Complate に変わったら変換完了です。
ほぼ100%変換成功です。
API使用時のパラメータ及び、戻り値も、同画面の下に表示されていました。
6 最後に
遂に日本語に対応\(^o^)/ってことで、とりあえず、触ってみました。 次は、APIから利用して、何か作ってみたいです。