Amazon Textractファーストインプレッション

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

はじめに

AWS re:Invent 2018で発表された新サービス、Amazon Textract。5月29日にGA(一般公開)が開始されました。

しかし、意外にもDevelopers.IOにやってみたブログがありませんでした。ということで今更ではありますが実際に触ってみたいと思います。

Amazon Textract

Amazon Textractはドキュメント分析サービスです。画像やドキュメントからテキストや構造化されたデータ、テーブルを検出して抽出します。

現時点で対応しているドキュメント形式はPNG、JPEG、PDFです。また対応言語は英語のみ、抽出可能なテキストは標準的な英語のアルファベットとASCII記号のみで、日本語は未対応です。

利用可能なリージョンは米国東部 (バージニア北部)、米国東部 (オハイオ)、米国西部 (オレゴン)、欧州 (アイルランド)です。

やってみた

さて、早速やってみましょう。AWS管理コンソールでAmazon Textractを開き、[Amazon Textract を試す]ボタンをクリックします。

[文章を分析する]画面で、[文章をアップロードする]ボタンをクリックします。

ドキュメントをアップロードする。なお、実際にPDFをアップロードしようとしたところ、10ページ未満にするようにエラーが出ました。アップロード可能なドキュメントについての注意書きは以下の通りです。

Your document must be in JPEG, PNG or PDF format. 
It must be smaller than 5 MB, and have fewer than 10 pages. 
The limits for uploading a document in the console are different than the API. 
For more information, see the Amazon Textract limits

今回はAmazon TextractDeveloper Guide(PDF)から特定ページを抽出したものを使います。S3バケットを作成するか確認されるので[はい、S3バケットを作成します]をクリックします。

実際に分析された結果がこちら。テーブル内の文字もきちんと認識できています。

抽出した生テキスト。きちんと全文認識できています。

テーブル構造もちゃんと認識できています。

ではPDFではなく画像ではどうでしょうか。同じファイルをJPEGファイルとして書き出し、アップロードしてみます。結果は...全く問題ありません。PDFと同様に検出できています。生テキストもテーブルもちゃんと認識しました。

さいごに

しっかりと正確にドキュメント分析が出来ました。日本語への対応が待たれます ね!