文字起こしサービスAmazon Transcribeが一般提供開始(東京リージョン・日本語対応はまだ)
AWS Summits 2018 San Francisco で文字起こしサービスAmazon Transcribeの一般提供(General Availability)開始が発表されました。
AWS re:Invent 2017 で新規発表・プレビュー公開され、約3ヶ月での GA とスピード出世です。
費用
プレビュー時代は無料でしたが、 GA に伴い費用が発生します。
通常利用
$0.0004/秒 で課金されます。 また、オーディオがいくら短くても、15秒分($0.0004/s * 15s = $0.006)は必ず課金されます。
Free Tier
毎月60分までは無料です。
詳細 https://aws.amazon.com/transcribe/pricing/
S3
Amazon Transcribe は文字起こし対象の音源を S3 にアップロードします。 そのストレージコストも別途発生します。
利用可能なリージョン
- US East (N. Virginia)
- US East (Ohio)
- US West (Oregon)
- EU (Ireland)
プレビュー時は US East のみでした。 東京リージョンはまだです。
対応言語
- 英語
- スペイン語
プレビュー時と同じです。 日本語対応はまだです。
機能
GA に伴い、プレビュー時代から予告されていた次の機能が追加されました。
複数話者の認識
プレビュー時は音声が文字に変換されるだけのシンプルなサービスでしたが、この機能の追加により、どの音声をどの話者が話したのか識別出来るようになりました。
詳細は次のブログを参照下さい。
カスタム語彙
ボキャブラリーを登録出来ます。 医療など、ドメイン度の高い音源を文字起こしする場合、ボキャブラリーを登録することで文字起こしの精度が高まります。
詳細は次のブログを参照下さい。
まとめ
Amazon Transcribe が一般提供となりました。
そのままでは扱いにくい音声がテキスト化されることで、検索(Elasticsearch)、翻訳(Amazon Translate)など、データの活用範囲が大幅に広がります。
単体では用途が限定されますが、他のソリューションと組み合わせることで威力を発揮します。
ぜひお試しください。