[新機能] Amazon TranscribeがVocabulary Filteringに対応しました!

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

はじめに

今日紹介する新機能はこちら!

Amazon TranscribeがVocabulary Filteringに対応しました。音声を読み上げる際に、指定したボキャブラリに基づいて特定の用語を自動的にマスクしたり削除したりすることが出来ます。一番わかりやすい例はコンテンツのモデレーションで、例えば不適切な用語をリストアップしておいて設定すれば、全てマスキングすることが出来ます。

ま、まずはやってみましょう!

やってみた

Amazon Transcribe画面を開くと、左側ペインにVocabulary filteringが追加されています。こちらをクリックします。[Create vocabulary filter]ボタンをクリックします。

Create vocabulary filter画面に遷移します。[Name]に適当な名前をつけ、[Language]を選択します。今回は日本語でやってみます。フィルタしたりボキャブラリーのリストはファイルアップロードかS3の指定となりますが、今回はファイルをアップロードします。[Choose File]ボタンを押して、ファイルをアップロードします。

作成したファイルはこちら。

オンプレミス
Azure
GCP

ファイルを指定し終わったら、[Create vocabulary filter]ボタンをクリックします。

Vocabulary filterが作成されました。

さて、実際に実行してみます。今回はサンプル音声をAmazon Pollyにて作成しました。これをS3バケットにアップロードしておきます。

こんな感じです。

Amazon Transcribe画面からTranscription jobs -> [Create Job]ボタンをクリックします。

[Name]に適当な名前をつけ、[Language]を選択します。[Input file location on S3]で先程アップロードしたMP3ファイルを指定します。

[Output data]はそのまま。[Next]ボタンをクリックします。

[Configure output - optional]画面に遷移します。[Content removal]に[Vocabualry filtering]という項目があるので、こちらをクリックして有効化します。

[Filter selection]で先程作成したフィルタを指定します。[Vocabulary filtering method]ではMaskかRemoveを選べるのですが、今回はMaskにしてみます。デフォルトで***に変換されるようですが、こちらも自由に指定できるようになると良いですね。設定したら[Create]ボタンをクリック!

ジョブが作成され、In Progressになりました。

ステータスがCompleteになったので、[Download full transcript]ボタンを押して、結果をダウンロードします。

そして結果がこちら!

{"transcript":"クラス メソッド 株式会社 は 二 千 十 九 年 十二月 二 日 から 十二月、 九 日 に 米国 ね ば 多種 ラスベガス で 開催 さ れ て いる 映画 ブリュレ インベント にて 提供 開始 が 発表 さ れ た 映画 ブルース と ポスト の 導入 支援 サービス の 提供 を 開始 し、 ます クラス メソッド は 映画 ブリューゲル インベント にて 映画 グリース と ポスト の ラウンチ パートナー として 認定 さ れ、 まし た 映画 ブレスト ポスト を 使用 する こと により の インフラストラクチャー サービス 運用 モデル を データ センター や *** 施設 で 利用 できる よう に なり ます 映画 ブルース と ポスト を 使用 し て *** 環境 で 構築 し た。 サービス と ツール アプリケーション について は そのまま 映画 ブルース クラ ウド 上 に デプロイ する こと が でき *** と クラ ウド で 一貫 し た 運用 を、 行う こと が 可能 です エイ ダブリュー クラ ウド の サービス や アプリケーション を *** で 実行 できる こと により 金融 サービス や ゲーム コンテンツ 配信 など 体 レイテンシー が 求め られる 分野 で の 活用 が 期待 さ れ、 ます クラス メソッド で は クラ ウド の メリット で ある スケーラビリティ と 対象 外 勢 に 加え て 映画 グリース と ポスト の 特徴 を 生かし た アーキテクチャ を 提案 し て いき ます また 映画 ブルース と ポスト の 導入 支援 サービス の 提供 開始 に 合わせ て いちはやく 国内 ユーザー 向け の セミナー を 予定 し て おり 特徴 と ユース ケース 導入 の ポイント など を 紹介 し、 ます"}

はい、「オンプレミス」という単語が「***」に置き換わりました!

さいごに

もちろんテキスト化された後に変換するという方法もありますが、大量の単語リストをいちいち変換するのは手間です。読み上げ時に置換または削除出来るというのは大変便利な機能だなと思いました。