[レポート] Amazon Textract&MongoDBを使用してサーバーレスアプリを自動的にスケーリングする #SVS210 #reinvent

CX事業本部の佐藤です。

re:Invent 2019 セッション 「Automatically scale a serverless app with Amazon Textract & MongoDB 」のレポートです。

セッション概要

Working with disorganized data is expensive and wasteful. One area in which this is readily apparent is the legal field, especially during the data discovery phase. In this session, we use Amazon Textract, Amazon Comprehend, and MongoDB Atlas to build a serverless product that seamlessly ingests documents and intelligently organizes their data, increasing efficiency and reducing costs. We show you how to easily interconnect these services using AWS Lambda as a backend and how to quickly create web and mobile user interfaces using MongoDB Realm. This presentation is brought to you by MongoDB, an APN Partner.

整理されていないデータを扱うのは高価で無駄が多いです。 これがすぐに明らかになる分野の1つは、特にデータ発見段階での法的分野です。 このセッションでは、Amazon Textract、Amazon Comprehend、およびMongoDB Atlasを使用して、ドキュメントをシームレスに取り込み、データをインテリジェントに整理するサーバーレス製品を構築して、効率を高め、コストを削減します。 AWS Lambdaをバックエンドとして使用してこれらのサービスを簡単に相互接続する方法と、MongoDBレルムを使用してWebおよびモバイルユーザーインターフェイスをすばやく作成する方法を示します。 このプレゼンテーションは、APNパートナーであるMongoDBによって提供されます。

レポート

Agenda

Enron Corpusとは

Enron Corpusは、Enron Corporationの従業員158人によって生成された60万件を超える電子メールの大規模データベースであり、企業の崩壊後の調査中に連邦エネルギー規制委員会によって取得されました。今回のセッションはこの膨大な量のデータを分析するアプリケーションをベースに話します。

詳しくは以下のWikiを参照

Enron Corpus

docit

docitと呼ばれる、以下のようなサンプルアプリケーションをベースに解説していきます。

犯罪の証拠を抽出する

corpus ドキュメントから、Amazon Comprehendをもちいて、フレーズ、エンティティを抽出し、犯罪の証拠を探し出す。

Amazon Comprehendとは

  • データを素早く分析する
  • エンティティ、フレーズ、感情、構文、トピックを抽出する
  • 分析に費やす時間を劇的に削減
  • マシンラーニングの経験は不要

Amazon Textractとは

  • データを迅速かつ正確に抽出する
  • 手作業の手間を省く
  • 文書処理コストの削減
  • OCRの経験が不要

ソリューション: クラウドサービス + マシンラーニング

S3 + Comprehend + Textract

MongoDB Atlas と組み合わせる

Atlasの Comprehendのメタデータ

MongoDB Atlasとは

MongoDBが提供しているグローバルクラウドデータベースサービス

  • グローバルなクラウドデータベース
  • セルフサービス&エラスティック
  • エンタープライズレベルのセキュリティとSLA
  • 包括的な監視
  • マネージドなバックアップ
  • sticth: サーバーレスプラットフォームサービス

今回のアーキテクチャ

分析にはAWS、データベースにはAtlasを使う。この2つのコンポーネントを繋ぐ方法は?

MongoDB Stitch

MongoDBが提供する、サーバーレスプラットフォームサービスです。

  • ファンクション
  • ホスティング
  • トリガー
  • 豊富なクエリ
  • AWS SDKとの親和性
  • CLI
  • Gitとの統合

MongoDBはデータプラットフォームです

Stitchを追加後のアーキテクチャ

MongoDB Stcithを使って、AWSとAtlasをつなぎ合わせました。

次のステップ

このスタックの利点

  • データの保存とクエリの容易さ
  • アバウトデータをインテリジェントに学習するための適応技術を備えた強力な機械学習
  • 状態に関する柔軟性と他のサービスへの呼び出し
  • OCRが次のレベルに進み、フィールド、フォーム、テーブル、写真の内容を識別します

試してみてください

以下のURLで今回のデモに使ったアプリケーションを試すことができます。GitHubリポジトリをクローンして、ご自身のAWS環境で試せます。

https://www.mongodb.com/reinvent19-serverless

まとめ

MongoDB Atlas, MongoDB Stitch, Comprehend, Textractを使った、ドキュメントのOCRおよび分析のセッションでした。デモ中心のセッションでした。MongoDB Atlas, MongoDB Sticthというサーバーレスなプラットフォームを知ることができたので、Try it yourself!ということで早速試してみたいと思います!