【速報】Amazon Transcribeがチャンネル別文字起こしに対応します【予告】

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

本機能は2018年8月1日に正式リリースされました。

AWS Summit New York において、Amazon が提供する文字起こし(speech to text) サービス「Amazon Transcribe」が録音チャンネルをもとにした話者の識別("channel synthesis")に対応するというアナウンスがありました。

2018年4月の AWS Summits 2018 San Francisco において、話者を識別する機能が発表されました。 この機能は、あくまでも音声の塊(モノラル)から話者を識別するものであり、録音時のチャンネルを活用したものではありませんでした。

そのため、話者を識別したければ

  • Amazon Transcribe がうまく話者を識別してくれることを祈ったり
  • チャンネル別に文字起こし処理する

といった対応が行われてきました。

この channel synthesis 機能がリリースされると、マルチチャンネルのメディアをアップロードするだけで、チャンネルラベルをもとにした話者の識別が行われるようになります。

ユースケース

例えば、多くのコールセンターサービスでは、お客様の音声とエージェントの音声は別チャンネルで録音されます(Amazon Connect 含む)。今後は、このような音源データを情報量を落とすことなく活用できるようになります。

ステレオで録音した電話インタビューでも同様です。

まとめ

Amazon Transcribe が録音チャンネルを元にした話者の識別("channel synthesis")に対応予定であることがアナウンスされました。 今後は、電話応対などで、話者ごとに別チャンネルで録音された音声データをより活用できるようなります。

現時点で Amazon Transcribe は英語・スペイン語にしか対応しておらず、東京リージョン日本語では利用できないため、お気をつけください。

参考