[アップデート]Amazon Textractでローン書類の分析を高速化させるAnalyze Lending機能が利用可能になりました #reinvent

2022.11.29

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

みなさん、こんにちは。

AWS事業本部コンサルティング部の芦沢(@ashi_ssan)です。

re:Invent2022盛り上がっていますか?re:Invent会場の現地ラスベガスから最新情報をお届けします。

Amazon Textractはドキュメントや画像からテキスト、手書き、データを自動的に抽出する機械学習サービスです。

Textractでは単なるOCR(文字認識)機能だけでなく、テキストのフォームデータやテーブルデータとして認識することが特徴になりますが、今回のアップデートでAnalyze Lending機能が利用可能になりました。

Analyze Lending機能は、Analyze Lending APIにアップロードされた住宅ローンなどに関するドキュメントから、トレーニング済みの機械学習モデルが情報を分類・分割し、重要な情報フィールドのみを抽出します。

Textractのマネジメントコンソールからデモ画面が確認できるのでこちらから詳しい機能を確認していきましょう。

デモ画面で試してみた

従来のTextract Analyze Document APIでは、対象になるフォームの利用可能なすべてのフィールドを抽出していました。

続いて、上記画像と同じものを今回実装されたAnalyze Lending APIにアップロードしたところ、このような結果となりました。

すべてのフィールドの抽出はされておらず、機械学習モデルが事前に学習した重要なフィールドのみを抽出をしているように見えます。

注意点

1. 東京リージョン非対応

Amazon Textractは東京リージョンに対応しておらず、現在は以下のリージョンのみで使用することができ、今回追加されたAnalyze Lending APIも2022年11月28日から以下リージョンすべてで利用可能です。

  • US East (N. Virginia)
  • US East (Ohio)
  • US West (Northern California)
  • US West (Oregon)
  • GovCloud (US-East)
  • GovCloud (US-West)
  • Canada (Central)
  • Europe (London)
  • Europe (Paris)
  • Europe (Ireland)
  • Europe (Frankfurt)
  • Asia Pacific (Singapore)
  • Asia Pacific (Sydney)
  • Asia Pacific (Seoul)
  • Asia Pacific (Mumbai)

2. 日本語非対応

また、対応する言語は英語からはじめ以下の言語になります。日本語は未対応であるため注意です。

  • 英語
  • ドイツ語
  • フランス語
  • スペイン語
  • イタリア語
  • ポルトガル語

3. AWS CLI v1のみ対応

TextractのAWS CLIの公式ドキュメントを確認したところ、start-lending-analysisなどはAWS CLI v1のみに対応しており、CLI v2は非対応のようでした。

まとめ

Textractを業務で使ったことがないためあくまで想定になりますが、従来のAnalyze Document APIだとすべてのフォームを認識可能なため、フィルターと併用して使うことが多いかと思います。

今回のAnalyze Lending APIの実装によって、事前に学習された必要な情報だけを抽出することが容易になったため、これまで行われたいたフィルター処理などを省略することが可能になりそうです。

Textractはアップデートも頻繁にあり便利なサービスだと思うので、ただただいつの日か日本語対応してくれることだけを祈っています。

以上、AWS事業本部コンサルティング部の芦沢(@ashi_ssan)でした。