バイリンガルニュースをAmazon TranscribeとIBM Watsonに通して文字起こしの実用度を検証してみた

119件のシェア(ちょっぴり話題の記事)

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

ポッドキャスト界において長年にわたってトップを走り続けるMami & Michaelのバイリンガルニュース。二人のニュースに対するバランス感覚と不思議なセンスでピックアップされる科学技術論文が、英語学習者にとどまらずに広くリスナーを集める魅力なんだと思います。

スポンサーをつけずに運営しているこの番組の収益は、スマホとMacのアプリになっている文字起こしアプリの月額240円のサブスクリプションから来ています。

各話の文字起こしは外注しているとのことですが、逐語(verbatim)テープ起こしの相場は1分3ドルが相場と言われているので、現在平均して90分ある1話あたりの文字起こし作成コストは3万円を超えているはずです。しかも1話ごとの買取ではなく過去分も読み放題になっているので、サブスクライバーを純増で伸ばし続けていかなければペイしないかなり厳しい課金モデルになっています。

1リスナーとして何か提案できないものかと、先日発表され、現在パブリックプレビュー中のAmazon Transcribeでこのコストを圧縮できるのかどうか、その実用度を検証してみました。

すでに英語のテープ起こし業者はニュアンスコミュニケーションズのDragon Speechなどの音声認識ソフトウェアを使用してdraftingを行なっているところが多いですが、結論から言うと、Amazon Transcribeは職業トランスクライバーの技術的失業を引き起こす段階まで進んでいるサービスです。

Amazon Transcribeを使ってみる

プレビュー段階での機能と性能であることをお断りしておきますが、以下の通り使ってみました。

AWS re:Inventでのプレゼンをみるとよくわかりますが、Transcribeは単なるSpeech to Textのサービスではなく、AWSのマネージドサービスを組み合わせてAPIドリブンなアプリケーションを作成できることを前提にしています。

AWS Step Functionsを使ったオートメーションの例

コールセンターの先行事例では、文字起こし、テキストマイニングからベストプラクティスライブラリの生成までマネージドサービスで構成しています。このように、Transcribeは自然会話の音声認識、意味認識の双方からの要求に耐えられる全体最適の精度が備わっています。

S3に適切な権限設定を施して、音声ファイルをアップロード、その保存先を指定してジョブを作成します。

ほどなく処理が完了し、結果はJSONファイルに吐き出されます。transcriptのあとに、各単語ごとの発話タイムスタンプと精度分析が配列されています。シンプルですが、SDKでタイムスタンプを利用した加工やComprehendQuicksiteへのデータ送信に適したフォーマットです。

その実力を定量、定性的に検証してみる

バイリンガルニュースで音声とテキストが一般公開されている第3回(2013.05.29)のエピソードを題材にします。Michaelのニュース読みがたどたどしかったり、Mamiがクラブ通いしてたりと、なかなか隔世の感があります。

比較対象としては、IBM WatsonのSpeech to Textを使用しました。まずは料金から。

Amazon Transcribe IBM Watson
USD 0.0004/sec

(USD 0.024/min)

USD 0.02/min

(カスタム語彙を使用する場合はUSD 0.05/min )

Transcribeで予定されているカスタム語彙モデルがサポートされた場合に追加の料金が必要になるかでコストに差が出て来ますが、現状ではそれほど変わりません。

それぞれのテキストから、Michaelの発話部分を抜き出して揃えます。

オリジナル Amazon Transcribe IBM Watson

定量的にオリジナルの文字起こしと比較するため、レーベンシュタイン距離からテキストの一致度を測定するFuzzyWuzzyと、意味論からセンテンスの類似度を測定するDandelion APIParalleldots AIにかけてみました。

Amazon Transcribe IBM Watson
FuzzyWuzzy 91% 90%
Dandelion API 91.57% 90.06%
Paralleldots AI 4.98/5.00 4.98/5.00

Transcribeが文字起こしの精度でWatsonに優っていることがわかります。実際に内容をみてみると、数字以上にTranscribeの実用度の高さと両製品の設計思想の差がわかります。

オリジナル Amazon Transcribe IBM Watson
I mean you can go to karaoke or you know, there’s other things to do. i mean you go cut ok that others are munitions in there. I mean you can go to cuddle care. You know there's a.
three club executives at the club Vanity in Roppongi were arrested. three club executives the club vanity and bundy were arrested Three club executives at. The the club vanity and open the gate were arrested.

カラオケ、六本木といった英文で使われる日本語固有名詞の聞き取りに両方とも失敗しています。これは今後機械学習で外来語の語彙が蓄積されれば解決できる問題かと思います。

カラオケのくだりは後半の音声が不明瞭な上にMamiの笑い声が挟まるので推測で文章を補う必要があります。オリジナルはMichaelが言いかけた others という単語をカットして文章を繋げていますが、Transcribeはそこを文字にし、(本来意図する表現ではないが)意味が通る文章にしています。Watsonは文字起こしを途中で放棄しています。

オリジナル Amazon Transcribe IBM Watson
there’s so many like really clever hackers out there. And it’s just a, it’s such a zoo. they're so many alike. Really clever hackers out there and it's just it's such a zoo. there's so many like. Really clever hackers out there. And. It's just that such as soon.
These are bryophytes, the plants. These air bridal fights the plans these are bryophytes the plants.
You know it was a very similar situation with TEPCO. you know it was a very similar situation with that guy. you know it was a very similar situation with KEPCO.

上記の3例では、製品が使っているコーパスと推測根拠がよくわかります。

it's such a zoo は、Teddy Malcolm Sousaresの楽曲にあるように、いま風の会話によく出てくる表現ですが、Watsonは聞き取りに失敗し、かつ意味の通らない文章に起こしています。一方で、コケ植物門を意味する学術用語である bryophytes を正確に聞き取っています。

韓国の原発の話題の中で、唐突に TEPCO という単語が出て来ましたが、Transcribeは認識できずに意味が通る2語への置き換えを行なっていますが、Watsonは韓国電力公社 KEPCO と誤って起しています。実際に音声を聞いても KEPCO とはとても聞こえないのですが、これは前後のキーワードから話題を推定した上で音声認識を行うIBMのCognitive Computingの仕様からおきた間違いです。

こういったキーワード推測のアプローチはクイズの問題を認識して答えを導き出すシステムとしては長けていますが、文字起こし用途やアプリケーションを作成する上では、Transcribeの意味の通る文章を作ろうとする戦術の方が向いていると思います。

Transcribeは文字起こし用途で実用的か

文字起こしの過程と種類をおおざっぱに分類すると、機械起こし、それを編集した逐語、言い間違いをそのまま表記する素起し、過剰な相槌や言い直しを修正したケバ取り、文章校正を含んだリライトがありますが、Transcribeはそのどれにも属さない、「逐語かつ意味が通らない発話を校正した」文字起こしで、極めて実用的です。

バイリンガルニュースのオリジナル文字起こしも音声情報だけでは不可能な推測による補完をしていますが、Transcribeの文字起こしは素のままでとにかく読める体裁を取っているため、そういった補完や、用途に応じた文字起こしに整形することが容易です。そのセンスは音声認識ソフトによる機械起こしから職人芸で修正と校正をタイプしていくプロセスを丸ごとカットできる技術革新といえます。出力されたJSONファイルから文字起こしアプリに入れるデータにするまで、さほど時間はかからないはずです。

先出の事例のように、ビジネスの現場に存在する膨大な音声データを迅速かつ自動でテキストマイニング可能にするほか、これもプレビューが開始されているAmazon Translateとの組み合わせで、特に報道機関の仕事のやり方が大きく変わっていくと思われます。

プレビューのお申し込みはこちらから。ぜひ一度試していただきたい今年イチオシのサービスです。

 


クラスメソッドで、ヨーロッパリージョンで勤務しませんか? クラスメソッドでは、日本、バンクーバー、ベルリンで一緒に働く仲間を募集しています! 採用情報 | クラスメソッド株式会社