[アップデート] Amazon Transcribe が日本語のリアルタイム文字起こしに対応しました!

[アップデート] Amazon Transcribe が日本語のリアルタイム文字起こしに対応しました!

やっと日本語対応きたぞ!
Clock Icon2020.11.25

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

本日のアップデートで Amazon Transcribe でストリーミング文字起こしで日本語がサポートされました!

ストリーミング文字起こし

從來、Amazon Transcribe での日本語対応は S3 に音声ファイルをアップロードして読み込ませるバッチ文字起こしのみでしたが、今回のアップデートでリアルタイムな音声入力によるストリーミング文字起こしが可能となりました。

コールセンター、お問合せ窓口の通話記録、メディアのライブ配信の自動字幕作成、ミーティング議事録など、あらゆる場面でユースケースが考えられますね!

またテキスト化されることで Amazon Comprehend と組み合わせたリアルタイムな感情分析のサービスなどにも使えそうですね。

追加言語および追加リージョン

今回追加された言語はいかの 3 言語です。

  • 日本語
  • 韓国語
  • ブラジルポルトガル語

また、低レイテンシーでのストリーミング文字起こしを配信するために、ストリーミング文字起こしのサポートリージョンも追加されています。

  • アジアパシフィック (東京)
  • アジアパシフィック (ソウル)
  • 南米 (サンパウロ)

料金

執筆時点の東京リージョン価格は以下のとおりです。

  • ストリーミング文字起こし、バッチ文字起こしともに 1秒あたり 0.0004USD (最小料金は 15 秒分)

料金例

以下、公式ページ記載の料金例です

音声の長さ 料金
ソーシャルメディアビデオ ~10 秒 0.006 USD
ラジオのコマーシャル ~ 15 秒 0.006 USD
動画トレイラー ~2 分、30 秒 0.060 USD
録画済みのオンラインセミナー ~30 分 0.720 USD
「マーベラス・ミセス・メイゼル」の 1 エピソード ~60 分 1.440 USD
取締役会の録画 (平均) ~120 分 2.880 USD
カスタマーケア通話の録音 ~10 分 0.240 USD

制限

  • スピーカーを識別する Speaker identification 機能に対応しているのは英語のみです

やってみる

東京リージョンでこちらの動画の冒頭 15 秒をリアルタイム文字起こししてみました。

音声がながれますので、ご注意ください

実際の文字起こしテキスト

PC 内蔵スピーカーで出力した音声を、PC 内蔵マイクで受け取っているのでノイズなどの影響もあるかと思いますのであくまで参考値としてお考えください。固有名詞などはカスタムボキャブラリ(カスタム語彙)を利用することで精度をあげることが出来ます。

ちなみにこの動画は、カスタムボキャブラリは使っていない素の状態です。

皆さん こんにちは クラス メソッド 対応 担当 の 毒矢 の 束 を し、 ません 本日 は 十 五 分 で 分かる 暮らし ネーション と という こと で クラス メソッド は どう いっ た 会社 な の か? という こと を 皆様 に お伝え し て いけれ ば と 思っ て おり ます ので ただ よろしく お願い いたし ます では 早速 です ね クラス メート と の ガイシャ 説明 始め させ て いただこ う と 思い ます まず 経営 理念 と し、 まし て は オープン な 発想 と 高い 技術 力 により すべて の 人々 の 創造 活動 に 貢献 し、 続ける そういった もの を 掲げ て おり ませ ん

実際の音声は以下のとおり

皆さん こんにちは クラス メソッド 採用担当 の 徳山 と 申し ます 本日 は 十 五 分 で 分かる クラス メソッド という こと で クラス メソッド は どう いっ た 会社 な の か? という こと を 皆様 に お伝え し て いけれ ば と 思っ て おり ます ので どうぞ よろしく お願い いたし ます では 早速 です ね クラス メソッド の 会社 説明 始め させ て いただこ う と 思い ます まず 経営 理念 と し、 まし て は オープン な 発想 と 高い 技術 力 により すべて の 人々 の 創造 活動 に 貢献 し、 続ける といった もの を 掲げ て おり ます

語尾は声量が小さくなりがちなので音声を拾い難いかもしれませんね。。日本語は語尾で文章の意味がまったく正反対になってしまうので音声認識にとってはなかなか難しい言語かと思います。(がんばれ!Transcribe!)

仮想オーディオデバイスを使って周辺ノイズの影響を受けないようにするなど、音声入力環境を改善することで精度向上も見込めるかもしれませんね。

認識精度については日々改善されていくものと思われますので、これからのさらなる改善にも期待しましょう!

さいごに

ついに日本語でもストリーミング文字起こしがサポートされましたね!このアップデートを楽しみされていたユーザーはたくさんいらっしゃるような気がします!

AWS コンソールからであれば簡単に試すことができますので、ぜひ、一度お試しあれ!

以上!大阪オフィスの丸毛(@marumo1981)でした!

Share this article

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.