文字起こしサービスAmazon Transcribeが話者を識別するようになりました

2018.04.05

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

AWS Summits 2018 San Francisco で文字起こしサービスAmazon Transcribeが正式リリースされました。 正式リリースに伴い追加された機能の一つが話者の識別です。

プレビュー時は音声が文字に変換されるだけのシンプルなサービスでしたが、この機能の追加により、どの音声はどの話者が話したものなのか識別出来るようになりました。

文字起こしネタ

文字起こし対象には TheEllenShow の Ellen DeGeneres と Bill Gates の対談を利用します。

観客の笑い声もありますが、基本的に Ellen と Bill の対話だけです。

やってみた

まずは Amazon Transcribe の管理画面に移動します。

現時点で以下のリージョンでサービスが提供されています。

  • US East (N. Virginia)
  • US East (Ohio)
  • US West (Oregon)
  • EU (Ireland)

今回は US East リージョンを利用します。

事前準備

Amazon Transcribe を利用するにあたり、S3 バケットの作成や S3 バケットのポリシー設定が必要です。 次の記事を参考にして下さい。

AWS CLIからAmazon Transcribeを使って文字起こししてみた

1. 文字起こしするオーディオを S3 にアップロード

音源を S3 バケットにアップロードします。 アップロードした S3 オブジェクトの次の形式のパスを控えます。

https://s3.amazonaws.com/BUCKET-NAME/PATH/TO/AUDIO.mp4

2. Transcribe 画面に移動

Amazon Transcribe の管理画面に移動します。

メニューから Transcription Jobs を選択し、Create Job ボタンをクリックします。

3. 文字起こしジョブを作成

  • Name にはユニークな名前を指定します。
  • S3 input URL には先程控えた S3 オブジェクトのパスを指定します。
  • Language は English とします。
  • Format は音源ファイルに合わせます。今回は mp4 を選択しました。

ここでプレビュー時代にはなかった「Speaker identification」の登場です。

デフォルトでは無効化(Disabled)されているため、有効化(Enabled)します。 続いて、話者の数を指定します。

正しい話者数を指定すると、話者を識別する精度が上がります。

今回は「2」を指定します。

なお、この値の最大値は10です。

最後に「Create」ボタンを押して、ジョブの開始です。

4. ジョブ完了を待つ

ジョブ開始後はジョブのステータスが 「In Progress」 となります。 ステータスが「Complete」になるまで待ちます。

5. 文字起こしテキストを確認

ジョブの詳細画面に移動しましょう。

文字起こしテキストはダウンロードリンクからダウンロード可能です。

また、Transcription エリアには、プレビュー時代は「Text」だけでしたが、「Speaker identification」と言うメニューが追加されています。

Textでは話者を識別せずに、音声をそのまま文字にしたものです。

Speaker identificationでは、各テキストがどの話者が発したのか識別出来るようになっています。

改めて動画を確認します。

Amazon Transcribe は Ellen DeGeneres を Speaker 1Bill Gates を Speaker 0 として識別しています。(0インデックスです)

冒頭は Ellen DeGeneres が話し、63秒ごろになってはじめて Bill Gates が発言します。

Speaker 1(Ellen DeGeneres):

Hi. So the last time we saw each other, it was at the white house, we both were receiving the medal of freedom, and that was quite a day, wouldn't it

Speaker 0(Bill Gates):

was amazing group? Yeah, really,

Speaker 1(Ellen DeGeneres):

really fun. ...

Speaker 0(Bill Gates) が発したことになっている"Yeah, really" は正しくは Speaker 1(Ellen)となるべきです。

Speaker 1(Ellen DeGeneres):

Hi. So the last time we saw each other, it was at the white house, we both were receiving the medal of freedom, and that was quite a day, wasn't it?

Speaker 0(Bill Gates):

(It )was an amazing group.

Speaker 1(Ellen DeGeneres):

Yeah, really, really fun. ...

とは言え、話者の切り替わりを大筋で認識していることは感じて頂けるかと思います。

以降も、話者をほどよく識別しています。

驚きです。

まとめ

Amazon Transcribe の新機能、話者識別機能を試してみました。

  • インタービュー
  • 対談
  • 会議

など、複数話者の文字起こし業務が大幅に効率化されるのではないでしょうか?

なお、現時点で Amazon Transcribe はアメリカ英語、スペイン語のみに対応しています。

また、音源データが話者毎にチャンネルを分けて録音していても、それを活かすことは出来ないようです。

参考