[レポート] AIM363 – めっちゃ賢いやんけ!Amazon Textract の概要 #reinvent

本記事は、AWS re:Invent 2018 セッション「AIM363 - Introducing Amazon Textract」 のレポートです。

Amazon Textract enables you to easily extract text and data from virtually any document. Today, companies process millions of documents by manually entering the data or using customized optical character recognition solutions, which are prone to error and consume valuable resources. Join us to learn how Amazon Textract uses machine learning to simplify document processing by enabling fast and accurate text and data extraction so you can process millions of documents in hours.

  • スピーカー
    • Ranju Das - GM, Amazon Rekognition, AWS
    • Wendy Tse - Sr. Product Manager, Amazon Rekognition, AWS
    • John Newton - Founder and CTO, Alfresco Software
    • Bradley Christus - Senior Director, Global Presales, Alfresco Software Inc.

セッション動画

レポート

ドキュメントは重要

多くの業界で、コミュニケーション、コラボレーション、取引の主要ツールとして使われている

  • 金融
  • 医療
  • 保険
  • 法律
  • 不動産
  • ビジネス管理
  • 会計
  • 教育
  • 税務管理 などなど

ドキュメント処理の必要性

  • 検索と発見
  • コンプライアントとコントロール
  • ビジネス処理の自動

現在のドキュメント処理の方法

  • 手作業
  • OCR
  • ルールとテンプレートベースの抽出

ドキュメント処理の課題:手作業

  • コストが高い
  • エラーを起こしやすい
  • 時間がかかる

以下のようなフォームがあった場合、人によってアウトプットが異なる。「28 が true」「CPP/QPP が true」といった具合。手作業による課題は

  • 可変出力
  • 結果に一貫性がない
  • コンセンサスのために人によるレビューが必要

ドキュメント処理の課題:OCR

  • 単純なドキュメントのみ
  • エラーを起こしやすい
  • 単語の袋

以下のような文書の場合、OCR はカラムを検出や以下の課題がある

  • マルチカラム検出なし
  • 回転テキストの検出なし
  • 定形化されたフォントの検出なし

また、以下のようなテーブル構造のドキュメントでは、OCR はテーブル構造を無視して、左から右に読み込む。

ドキュメント処理の課題

以下のような文章も、論理グループ、リレーション、シンボルやグリフは欠けてしまう。

ドキュメント処理の課題:ルールとテンプレートベースの抽出

  • OCR の精度によって制限される
  • 重要な開発と管理のオーバーヘッド
  • テンプレートは脆い

人が見れば一見同じようなテンプレートも、コンピュータが認識するピクセルで比較すれば異なる。

Amazon Textract の機能

  • テキスト抽出
  • テーブル抽出
  • フォーム抽出

Amazon Textract:テキスト抽出

単語、行、文章、カラム を判断して出力する

Amazon Textract:テーブル抽出

テーブル抽出では、ブロック毎に以下の値を得ることができる

  • テキスト
  • 信頼スコア
  • ブロック関係(例えば、テーブル内のセル)

Amazon Textract:フォーム抽出

同様にフォーム抽出では、ブロック毎に以下の値を得ることができる。

  • フォームフィールド名(キー)とフィールド値(値)の関連付け
  • 信頼スコア
  • ページ番号
  • ブロック関係

Amazon Textract:同期と非同期

  • 同期 API
    • 待ち時間が重要となるケースに適している。モバイルアプリなど、領収書(単一ページ)からデータを取得するケース
  • 非同期 API
    • 上限 3000ページまでの複数ページ

Amazon Textract:テキスト抽出を簡略化

マルチカラムを検出してくれます

Amazon Textract:テーブル抽出を簡略化

テーブルを認識し、セルでグループ化された単語も検出します。出力をみるとテーブルが Json で表されているのが判ります。

Amazon Textract:フォーム抽出の簡略化

論理グループを取得し、リレーションシップが保たれています。また、ラジオボタンなども True/False で正しく検出されています。

OCR を超えて:セグメンテーションと修正

歪んだドキュメントだったり、シワくちゃのレシートも機械学習で正しく読み取ってくれるようです。

OCR を超えて:テーブルとセルの抽出

テーブルを見つけるための文書構造と文脈を理解する

明確な境界がなくてもセルを理解する

OCR を超えて:フィールド名(key)と値の抽出

フレーズまたは単語のグループを検出する

OCR を超えて:キーと値の関連付けを推論する

テンプレートなしで同じフォームの構造を検出する。また、一方はフィールドが上にあり、もう一方ではフィールドが下にある。これは 1 枚のドキュメントで、ルールが競合していても正しく検出されるというのだから凄いですね。

このような空白も null としてちゃんと検出してくれる。

リファレンスアーキテクチャ:ドキュメントのインデックスと検索

ドキュメントをデータ化して、S3 にアップロード。Lambda が発火して、Textract にドキュメント解析するように API コールして、アウトプットを Elasticsearch Service に流し込むと、これまで出来なかった検索が出来るってわけですね。

リファレンスアーキテクチャ:フォームのキャプチャ

次の例は、W2(源泉徴収票)を撮影し、Textract API はユーザアプリに統合されてフォームからテキストを自動的に抽出して、自動的に文字入力されて、税務申告のデータにロードされる。(そういえば、みなさん年末調整の面倒な記入とかやったばっかりですよね。写真パシャパシャで値が自動入力されて、申告が完了する世界をイメージしてください。幸せですね。)

リファレンスアーキテクチャ:自然言語の抽出

次の例は、メディカルノートや、効用、患者フォームを S3 にアップロードし、Textract で 単語、行のテキスト、テーブルを抽出します。それらを、自然言語処理にわたし医療文書から洞察を抽出し、Elasiticsearch Service に流し、患者ケアを改善するための医学的洞察を見つけられるようにする。

Alfresco 事例

知的な OCR の必要性

  • 紙は高価
  • 顧客はモバイルキャプチャを望む
  • 手動によるデータ入力が遅く、エラーを起こしやすい
  • 組み込み情報へのアクセスにより意思決定と処理のスピードアップ
  • 一連のビジネスシステムに文書を統合するために必要なキー値と表データを抽出
  • 抽出された情報を含む文書を検索し、適切な遵守を支援

Alfresco の Amazon Textract を使ったデジタルビジネスプラットフォーム

(Alfresco ここまで)

価格

無料枠もあります

2018.12 時点の価格表です。最新情報は公式ページより確認ください

さいごに

従来の OCR よりも賢く、かつ読み取りだけでなく、その後のデータとしての活用までを考えられたサービスであることが良く解りました。言語認識系のサービスは、日本語対応は遅くなりますので、また 1つ 待ち焦がれるサービスが増えましたね。

以上!大阪オフィスの丸毛(@marumo1981)でした!

Appendix

  • プレビューへの参加申し込みはコチラから出来ます。