【新機能】Amazon Transcribeのカスタム語彙が頭字語に対応しました

2018.11.14

Amazon の提供する文字起こしサービス Amazon Transcribe のカスタム語彙が頭字語(acronym)に対応しました。(約2ヶ月前に)

Announcement: Amazon Transcribe - Custom Dictionary Feature Now Supports Acronyms

この機能を利用すると

  • USA(ユー・エス・エー)
  • CNN(シー・エヌ・エヌ)
  • AWS(エー・ダブリュー・エス)

のように、各アルファベットが個別に発音される単語の文字起こし率の向上が期待されます。

アルファベットが個別に発音されない

  • NATO(ナトー)
  • IEEE(アイ・トリプルイー)

のような略語は、今回のサポート対象外です。

カスタム辞書における頭字語の仕様

カスタム語彙に頭字語を利用する場合、個別に発音するアルファベットを大文字で書き、続けてピリオド(.)を追加します。

USA の場合 U.S.A となります。

u.s.a. のように小文字を使うとバリデーションエラーになります。

複雑なケースとして、EC2(イー・シー・ツー)を考えます。

  • 先程の頭字語の仕様("EC" は "E.C.")
  • カスタム語彙に数字は使えない仕様( "2" は "two")
  • 複数語はハイフンでつなげる仕様("Los Angeles""Los-Angeles")

を合わせると、"EC2""E.C.-two" となります。

やってみた

頭字語を使った音声に対して、カスタム語彙のあり・なしで文字起こし結果にどのような違いがうまれるのか確認します。

Amazon Transcribe は現時点で、米語・スペイン語に対応しています。今回は米語を利用します。

利用音源

AWSの専門用語が程よく搭乗する次の動画を利用します。

辞書の作成

頭字語の仕様をもとに、次のような AWS 系のカスタム辞書を用意します。

aws_acronym_custom_vocabulary.txt

A.P.I.
A.W.S.
M.F.A.
I.T.
I.-am
E.C.-two

辞書の登録

Transcribe 管理画面の "Custom vocabulary" から辞書を登録します。

辞書の登録が完了するまで、5分程度お待ち下さい。

辞書を利用して文字起こし

文字起こしジョブ作成画面で、作成したVocabularyを指定します。

文字起こし結果の比較

2分程度の動画ですが、テキスト全体はそれなりに長いため、0分38秒ごろからの部分を抜粋して

  • 動画の本来の音声
  • カスタム語彙ありの文字起こしテキスト
  • カスタム語彙なしの文字起こしテキスト

を比較します。

オリジナル 辞書あり 辞書なし
you can determine which users have MFA access to specific Amazon EC2 resources you can determine which users have M.F.A. access to specific. Amazon E.C.-two resource is you can determine which users have m f a access to specific amazon easy to re sources
and can perform specific actions on those resources, and can perform specific actions on those resources, and can perform specific actions on those resources,
such as, who can launch an amazon EC2 instance, and with AWS CloudTrail, such as who can launch an amazon easy to instance, and with A.W.S. cloud trail, such as who can launch an amazon easy to instance, and with a ws cloud trail.
you can keep logs of these kinds of activities, so it's easier to keep tabs on API activity and state compliant. you can keep logs of these kinds of activities, so it's easier to keep tabs on A.P.I. activity and state compliant. You can keep logs of these kinds of activities, so it's easier to keep tabs on ap activity and state compliant.
  • AWS
  • EC2
  • API
  • MFA

といった頭字語に関して、ほぼ期待通りに文字起こしできています。

また、頭字語以外の部分に関して、"resources"を除くと、完璧です。

最後に

専門用語には頭字語が多く用いられ、Amazon Transcribe の文字起こしはそのようなアルファベットを個別に発音する単語が苦手という印象がありました。

今回のカスタム語彙の機能拡張により、カスタム辞書を作成する手間は発生するものの、文字起こし精度の向上が期待されるのではないでしょうか。

参考