Amazon Transcribeでドイツ語を文字起こししてみた

2019.03.26

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

アマゾンが提供する文字起こしサービスのAmazon Transcribeがドイツ語と韓国語に対応したため、ドイツ語文字起こしを早速使ってみました。

Amazon Transcribe now supports speech-to-text in German and Korean

ドイツ語音声を文字起こしするには?

ドイツ語で文字起こしするには、ジョブ作成時のLanguageを"German(DE)"にするだけです。

全体の傾向

ビールをドイツ語で注文できる程度の浅はかな語学知識をもとに、全体の傾向を述べます。

概ね、発話に対応するドイツ語に正しく文字起こしされています。音声に連動して字幕をつけるような用途では大丈夫でしょう。

一方で、ドイツ語のトランスクリプトは以下の大きな特徴があります。

  1. 句読点が一切存在せず、単語がひたすら並んでいる
  2. ドイツ語の名詞は、文中であっても必ず大文字で始まるにもかかわらず、全ての文字が小文字で文字起こしされている

トランスクリプトの例

So man man zur zeit berichten die mädchen über einen riesigen datenleck dieser lack betrifft politiker parteien satiriker aber auch julia war das ganze hat mitte dezember angefangen mitte dezember hat einen twitteraccount täglich neue leaks veröffentlicht aber hatte keine aufmerksamkeit bekommen also sprich dieses thema haben wir eigentlich schon seit dezember ...

この2つの特徴により、構文解析が少し難しくなっています。

トランスクリプトを他のサービスと連携し

  • 他言語に翻訳(Amazon Translate など)
  • センチメント分析(Amazon Comprehend など)

などをする場合、適切に前処理を行わないと、期待通りの精度が得られないかもしれません。

英語を例に考える

構文解析の難易度が翻訳結果にどのような影響をあたえるのか、英語から日本語への翻訳を例に、実際に確認してみましょう。

AWS のトップページには以下の文章が掲載されています。

In 2014, Capital One had a fledgling private cloud capability and was also experimenting with AWS. In an effort to build the features its customers wanted as quickly as possible, the company chose to pursue AWS.

この文章をAmazon Translateで日本語に翻訳してみます。

2014 年には、Capital One は本格的なプライベートクラウド機能を持ち、AWS を試していました。 お客様が望む機能を可能な限り迅速に構築するために、同社は AWS を追求することを選択しました。

理解可能な日本語に翻訳されています。

次に、単語をすべて小文字にし、句読点を除去します。

in 2014 capital one had a fledgling private cloud capability and was also experimenting with aws in an effort to build the features its customers wanted as quickly as possible the company chose to pursue aws.

同様に、この文章をAmazon Translateで日本語に翻訳してみます。

では、2014 年の資本金は急成長するプライベートクラウド機能を持ち、顧客が望む機能を可能な限り迅速に構築するために、awesを試していました。

固有名詞("Capital One")が「資本金」になったり、全体を1文と解釈することで、意味不明な日本語になっています。

雰囲気が伝わりましたでしょうか?

細部を比較

全体の傾向を確認したところで、実際の文字起こし結果の細部を確認します。

次の動画の冒頭部分を文字起こし、本来のドイツ語と文字起こし結果を比較します。

発話開始日時 本来のドイツ語 文字起こし結果
0:02 So man man, zurzeit berichten die Medien über einen riesigen Daten Leak. So man man zur zeit berichten die mädchen über einen riesigen datenleck
0:06 Dieser Leak betrifft politiker Parteien satiriker aber auch YouTuber. dieser lack betrifft politiker parteien satiriker aber auch julia war
0:11 Das ganze hat Mitte Dezember angefangen. das ganze hat mitte dezember angefangen
0:14 Mitte Dezember hat ein Twitter-Account täglich neue leaks veröffentlicht, aber hatte keine Aufmerksamkeit bekommen. mitte dezember hat einen twitteraccount täglich neue leaks veröffentlicht aber hatte keine aufmerksamkeit bekommen
0:20 Also sprich dieses Thema haben wir eigentlich schon seit Dezember. also sprich dieses thema haben wir eigentlich schon seit dezember

間違っている単語は赤にしています。

概ね、正しく文字起こしできています。

正しく文字起こしされなかった単語を確認すると、YouTuber のような最近の単語は文字起こしに苦労している一方で、他の単語は、音(結果的に綴り)が似た別の単語に文字起こしされ、健闘しています。

なお、YouTuber のような特殊な語彙はカスタム語彙を登録することで、認識の向上が期待されます。

対応言語状況

参考情報として、2019/03/26 時点での言語の対応状況をまとめます。

言語 バッチ リアルタイム
英語(アメリカ) 対応済み 対応済み
英語(イギリス) 対応済み
英語(オーストラリア) 対応済み
スペイン語(アメリカ) 対応済み 対応済み
フランス語(カナダ) 対応済み
フランス語(フランス) 対応済み
ポルトガル語(ブラジル) 対応済み
イタリア語(イタリア) 対応済み
ドイツ語 新規対応
韓国語 新規対応
日本語 未対応

日本語対応はまだ先のようです。

リージョン対応状況

これまでは、新規対応言語に対応するリージョン(例えば、フランス語対応ど同時にパリリージョン)でAmazon Transcribeが利用可能になる傾向がありましたが、今回の新機能に関しては、ドイツ語に対応するフランクフルトリージョン韓国語に対応するソウルリージョンで利用可能にはなっていません。

Amazon Transcribeのデータソースは同一リージョンのS3バケットにある必要があるため、お気をつけください。