Amazon Transcribeが新しい音声基盤モデルによって精度向上を発表したので、日本語で確認してみた #AWSreInvent
はじめに
AWS re:Invent 2023で、Amazon Transcribeは、次世代の数十億パラメータの音声基盤モデルを搭載した自動音声認識 (ASR)を発表しました。
搭載したことにより、バッチモードでTranscribe を使用する場合、APIエンドポイントや入力パラメータを変更することなく、100 以上の言語で精度向上を実感できるようです。
下記でも紹介されていました。
こちらのAWSのブログでも下記のことが記載されています。
Amazon Transcribe は音声基盤モデルを活用することで、ほとんどの言語で 20% から 50% の大幅な精度向上を実現します。困難でデータが不足している分野である電話音声では、精度が 30% ~ 70% 向上しました。この大規模な ASR モデルでは、大幅な精度の向上に加えて、より正確な句読点と大文字の使用により可読性も向上します。
100 以上の言語で精度が向上したようですが、日本語も精度が向上されたのか、バッチモードで試してみました。
試してみる
以前(10月19日)、TranscribeとOpenAIのWhisperで、文字起こしの精度を比較検証した際に使用した音声を使い、比較します。
音声ファイルは、以前「Contact Lens for Amazon Connect 入門」というタイトルでビデオセッションした動画のうち、最初の2分を音声ファイルに変換したものです。入力ファイル形式は、WAVです。
以前(10月19日)に文字起こし内容↓
ーーーここからーーー
ディベロッパーIO二千二十三コンセッションでは、アマゾンコネクトの機能の一つであるコンタクトレンズフォーアマゾンコネクト入門と題しまして、主にアマゾンコネクトをすでに利用している方やコンタクトレンズフォーアマゾンコネクトについて知りたい方向けの入門セッションとなります。本セッションのスピーカーを務めさせていただきます。AW事業本部コンサルティング部所属の平裕一と申します。本日はどうぞよろしくお願いいたします。コンセッションのアジェンダです。まず、アマゾンコネクトについて概要を解説し、アマゾンコネクトの機能の一つであるコンタクトレンジフォーアマゾンコネクトの概要や機能有効化の設定方法、導入するメリットについてご紹介いたします。アマゾンコネクトとは、Aが提供しているスケーラブルかつ信頼性の高い顧客窓口を低コストでセルスサービスにて構築できるクラウド型コンタクトセンターサービスです。コネクトでは、電話回線や電話番号の取得、チャット、通話録音、自動音声応答などのコンタクトセンターに必要な機能が提供されています。また、インターネットに接続されたPCがあれば、どこからでもアクセス可能なため、在宅勤務を含む柔軟な働き方を実現できます。次に、コネクトで使用する用語について先にご説明いたします。コネクトで電話をかけてきたお客様のことを顧客と呼びます。電話対応したコールセンターの担当者のことをエージェントと呼びます。そのエージェントの上司のこと、スーパーエージェントと呼びます。そして、電話対応したその一件のことをコンタクトと呼びます。衣装の用語セセクション
ーーーここまでーーー
アップデート後、12月4日に文字起こし内容↓
ーーーここからーーー
ディベロッパーIO二千二十三コンセッションでは、アマゾンコネクトの機能の一つであるコンタクトレンズフォーアマゾンコネクト入門と題しまして、主にアマゾンコネクトをすでに利用している方やコンタクトレンズフォーアマゾンコネクトについて知りたい方向けの入門セッションとなります。本セッションのスピーカーを務めさせていただきます。AW事業本部コンサルティング部所属の平裕一と申します。本日はどうぞよろしくお願いいたします。コンセッションのアジェンダです。まず、アマゾンコネクトについて概要を解説し、アマゾンコネクトの機能の一つであるコンタクトレンジフォーアマゾンコネクトの概要や機能有効化の設定方法、導入するメリットについてご紹介いたします。アマゾンコネクトとは、Aが提供しているスケーラブルかつ信頼性の高い顧客窓口を低コストでセルスサービスにて構築できるクラウド型コンタクトセンターサービスです。コネクトでは、電話回線や電話番号の取得、チャット、通話録音、自動音声応答などのコンタクトセンターに必要な機能が提供されています。また、インターネットに接続されたPCがあれば、どこからでもアクセス可能なため、在宅勤務を含む柔軟な働き方を実現できます。次に、コネクトで使用する用語について先にご説明いたします。コネクトで電話をかけてきたお客様のことを顧客と呼びます。電話対応したコールセンターの担当者のことをエージェントと呼びます。そのエージェントの上司のこと、スーパーエージェントと呼びます。そして、電話対応したその一件のことをコンタクトと呼びます。衣装の用語セセクション
ーーーここまでーーー
結果
結果として、アップデート前とアップデート後では同じ文字起こし内容だったため、日本語に関しては、精度は変わっていませんでした。
ファイルの拡張子が異なるなど、他のサンプルだと精度が向上する結果になる可能性はありますが、少なくとも今回のサンプルでは、精度は変わりませんでした。
うーん残念ですね。。
今後に期待しましょう!!
追記2025年1月20日
Amazon Lexの新しい音声認識モデルがリリースされましたので、再度Amazon Transcribeを試しましたが、結果は変わっておりませんでした。
Amazon Lexの新しい多言語ストリーミング音声認識モデル (ASR-2.0) がリリースされ、認識精度が向上しました