[セッションレポート]AIM306-R | Intelligent document processing at scale with generative AI

2023.12.25

はじめに

Bedrockを利用したワークショップを体験しようと思い。こちらのワークショップを受講しました。

カタログには以下のとおり記載しております。

Organizations need to classify, extract, and enrich data coming from volumes of documents. Legacy OCR is tedious, expensive, and difficult to scale. AWS intelligent document processing (IDP) services help you automatically process documents quickly and accurately at scale. In this workshop, get hands-on experience to build a document processing pipeline with AWS IDP. Learn how to use generative AI to enhance document processing capabilities to deliver key insights. You must bring your laptop to participate.

[機械翻訳] 組織は、大量の文書からデータを分類、抽出、強化する必要がある。レガシーOCRは面倒で、コストがかかり、拡張が困難です。AWSのインテリジェント・ドキュメント・プロセッシング(IDP)サービスは、ドキュメントを迅速かつ正確に自動処理するのに役立ちます。このワークショップでは、AWS IDPでドキュメント処理パイプラインを構築するハンズオンを体験してください。生成AIを使用してドキュメント処理機能を強化し、重要な洞察を提供する方法を学びます。参加にはノートパソコンの持参が必要です。

Workshopの内容

AWSのサービスを利用して、簡易的なOCRのサービスを用いて、PDFや手書きの文書を読みとり、データベース化して、 データベースをもとにRAGを使用した、生成系AIのアプリをAmazon SageMaker ノートブックインスタンス 作りました。 アプリのコードはノートブックインスタンスを立ち上げた時点で作られており、 一部、記述を書き換えてながら、実行をして進めていきます。 OCRで読み取るファイルは、Workshopで準備されています。

以下ブログに近い内容だった思います。
Intelligent document processing with Amazon Textract, Amazon Bedrock, and LangChain | AWS Machine Learning Blog

利用した技術サービス

  • Amazon Textract:PDFなどのファイルから文字抽出する際に利用しました。
  • Amazon Bedrock: 文書の分類や要約、構造化データの抽出、Self-queryingやRAGの処理などで利用しました。
  • ChromaDB:ベクトルDBとして利用しました。

感想

コミュニケーションが全て英語のWorkshopが新鮮でした

Workshopであるため、現地のAWSのスタッフが途中の課題で詰まるとサポートしてくれます。 何が分からないかを英語で伝える難しさより、次に何をすればいいかを質問することに苦労しました。 What can I do next? (本当はWhat should I do next?が正しい)と何度も言ってました。

私の隣に座っていた方も、Workshopに苦戦していて、助け合いながら進めましたが、もちろん英語でコミュニケーションの難しさを実感しつつも なんとなく伝わったので自信にもなりました。

Workshop以前にJupyter Notebookの扱いに苦戦しました

WorkshopはほとんどがAmazon SageMaker ノートブックインスタンス上のJupyter Notebookで進められました。 そのため、Jupyter Notebookの利用経験がないとWorkShopを進めること自体に苦戦します。

Jupyter NotebookでPythonの簡単な処理などは試したことがありますが、 Jupyter Notebook上からAWSのサービスを立ち上げたり、データベースを作成したことがなかったため、 Workshopが開始時点では、何をしたら良いか分からず苦戦しました。

まとめ

英語で今まで経験したことのない技術のWorkshopを経験すると 技術習得に対するモチベーションだけではなく、英語学習のモチベーションにもつながりました。 AWS re:inventに行く際は、知らない技術を英語を話さざるを得ない環境を経験することをお勧めします。