Contact Lens for Amazon Connect で日本語のカスタム語彙を登録する方法を教えてください

英字やローマ字、ja-jp-character-set.txt に記載されているひらがな、カタカナ、漢字で表記できます。

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

困っていた内容

Amazon Connect Contact Lens で日本語の文字起こしの精度を上げたいです。
日本語でカスタム語彙(Custom Vocabularies)を登録したい場合、Phrase や SoundsLike 列はどのような表記が利用可能でしょうか。  

どう対応すればいいの?

Phrase と SoundsLike 列には、ja-jp-character-set.txt に記載された文字が利用可能です。

英字やローマ字での表記が可能です。
また、ja-jp-character-set.txt に記載されているひらがな、カタカナ、漢字での表記も可能です。

カスタム語彙追加の際の注意点

カスタム語彙ファイルの登録の際には、以下の制約もあるので注意しましょう。

・分析に適用できる語彙は、1 言語につき 1 個です。つまり、準備完了 (デフォルト) のステータスになるファイルは、1 言語につき 1 個だけです。
・最大 20 個のアクティブなカスタム語彙を使用できます。20 個を超える語彙をアップロードできます。
・文字起こしは 1 回限りのイベントです。新しくアップロードされた語彙が、既存の文字起こしに対して遡及的に適用されることはありません。
・テキストファイルは LF 形式である必要があります。CRLF 形式など、他の形式を使用した場合、カスタム語彙は Amazon Transcribe では受け入れられません。

カスタム語彙を追加 - Amazon Connectより

参考資料