Amazon Transcribeで約17分の動画ファイルの文字起こしをしてみた
Developers.IO 2020 CONNECT用に作成した動画ファイルの文字起こしに挑戦してみました。 いくつかの手段がありますが、AWSのAmazon Transcribeを使ってみます。
Amazon Transcribeで文字起こしをする
動画ファイルを音声ファイルに変換する
Amazon Transcribeは動画ファイルは扱えないため、音声ファイルに変換します。 今回はQuickTime Playerを使って、オーディオファイルの書き出しを行いました。
S3バケットに音声ファイルをアップロードする
適当なS3バケットに先ほど変換した音声ファイルをアップロードします。
Jobを作成する
適当なJob名を入力し、入力言語としてJapaneseを選択します。
Input Dataとして、先ほどアップロードしたS3オブジェクトであるs3://cm-fujii.genki-test/amazon_transcribe_devio.m4a
と入力します。
Output DataはデフォルトのService-managed S3 bucket
を選択しておきます。
Nextを押して進みます。Optiona設定はそのままで進むとJobが開始されました。
3分ぐらいで終わりました。早い。
文字起こし結果を確認する
プレビュー表示の様子
なんかいい感じです。
5000文字を超えたのでプレビュー表示は終わっていました。
全データを確認する
Example API response
にあるJSON内のURL(TranscriptFileUri
)をコピペして叩くと、JSONファイルがダウンロードできました。
中を見てみると、最後までバッチリ文字起こしされていました。
このままだと空白があって読みにくいので、一括置換で空白を削除すると良さそうです。
おもしろ間違いをピックアップしてみた
滑舌とかノイズとか音量レベルとかいろんな理由があると思いますが、変な文字起こしをピックアップしました。
文字起こし結果 | 実際の発言 |
---|---|
魔性 | 〜ます、〜ましょう |
妹ワーク | リモートワーク |
ディベロッパー剤 | Developers.IO |
デベロッパー材用 | Developers.IO |
ディベロッパー材料 | Developers.IO |
永田ベース | AWS |
選ぶレース | AWS |
足うむロール | Assume Role |
嫌みポリシー | IAMポリシー |
たくさん話したけれど、これ以外に変なところはあまり無かったです。すごい。(同音で異なる漢字とかはあります。「聞く側」と「菊川」とか。)
全体的に英語の発音ですね、はい……。
さいごに
思っていたよりも精度が良くて驚きました。自分の滑舌や発音が良ければ、もっと精度が上がるのでしょうか……。