[レポート] 干し草の山から針を見つける:AIを使用してコンテンツ管理を変革する #AIM206 #reinvent

2019.12.13

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

DA事業本部の川崎です。

本記事はAWS re:Invent 2019のセッションレポートとなります。

概要

Finding digital content, from documents to media, can be frustrating and time-consuming. Across your employees or customers, this challenge can waste hours, derail projects, and create poor experiences. In this breakout session, learn how to use language and vision AI services to extract data, insights, and trends from all of your digital content, with a focus on how to more effectively manage your documents and find what you need.

ドキュメントからメディアまで、デジタルコンテンツを見つけるのはイライラし、時間がかかる場合があります。 従業員または顧客全体で、この課題は時間を浪費し、プロジェクトを脱線させ、劣悪な体験を生み出します。 このブレークアウトセッションでは、言語およびビジョンAIサービスを使用して、すべてのデジタルコンテンツからデータ、洞察、傾向を抽出する方法を学びます。ドキュメントをより効果的に管理し、必要なものを見つける方法に焦点を当てます。

スピーカー

  • Udi Hershkovich - Sr. Business Development Manager, Amazon Web Services
  • Niranjan Hira - Product SA, Amazon Web Services
  • Girish Arunagiri - Director, Technology, FINRA

アジェンダ

  • 増え続けるコンテンツの山
  • AIサービスを使用して、干し草の山から針を見つける方法
  • 事例:
  • FINRA ― 金融規則違反の調査

増え続けるコンテンツの山

非構造化コンテンツの山

  • ナレッジワーカーが情報の検索に費やす時間の44%が、仕事に必要な情報を見つけられずに終わる

非構造化コンテンツの山

  • 深い階層のアーカイブ
    • 検索対応アプリ (資産の収益化)
  • エンタープライズナレッジ
    • 従業員の生産性 (人事、IT、法務のハウツー文書)
  • eDiscovery (電子証拠開示制度)
    • Insightアプリ (リレーションシップが問題)
  • サポート
    • セルフサービス (FAQは無い)

何が問題か?

  • 非構造化コンテンツの爆発
  • スキャンされた、テキスト化されていないコンテンツ
  • マルチメディアコンテンツ
  • マルチリンガルコンテンツ

AIサービスを使ったリファレンスアーキテクチャを紹介

  • Amazon Textract
  • Amazon Transcribe
  • Amazon Translate

  • アップロードが簡単にできる、セキュアなリポジトリ、保存に最適化されている
    • S3

アーキテクチャの全体像

  • アップロードが簡単にできる、セキュアなリポジトリ、保存に最適化されている
    • S3
  • データ処理コストを削減するサーバーレスアーキテクチャ
    • Lambda
  • コンテンツを「正規化」する、AIサービス
    • Amazon Textract
    • Amazon Transcribe
    • Amazon Translate
  • 自然言語処理がドキュメントの分類を支援、キー項目やキーフレーズを抽出
    • Amazon Comprehend
  • グラフDBが関連ドキュメントの特定を支援する
    • Amazon Elasticsearch Services
    • Amazon Neptune
    • Amazon SageMaker

いくつかのケースでは、カスタムソリューションを構築

事例紹介

Alfresco

  • ドキュメントをインサイトに
    • Alfrescoは、Amazon Textractを利用して、顧客ドキュメントから興味・関心のデータ抽出、データ投入を自動化し、新しいインサイトを作り出す

MARINUS ANALYTICS

  • 人身売買と闘う
    • Marinus Analyticsは、Amazon Rekognitionを使い、人身売買の犠牲者を探し出す
    • 法律執行機関が人身売買業者を起訴するのを支援する

Lexbe

  • 数百万のドキュメントを大規模に分析
    • LexbeはAmazon Translateを使い、国境を越えた訴訟や、多言語の法的問題におけるeDiscovery (電子証拠開示制度)文書の処理に必要な速度と制度を達成

FINRAの事例紹介

FINRAについて

米国の金融業規制機構のこと。Financial Industry Regulatory Authorityの略。<中略> 米国のすべての証券会社が加盟する非政府規制機関。

日本証券業協会のWebページより

  • FINRAについて
    • 投資家の保護
    • 市場の完全性
  • ルールを施行
    • 会社とブローカーを管理するルールを作成し施行
  • 調査を実施
    • ルールの遵守について会社を調査
  • 投資家を保護
    • 公正で透明な市場を奨励しサポート
  • 投資家の教育
    • さまざまな金融トピックに関する教育リソースを提供

我々は大量のデータを処理する

  • ファイリング制度(公開情報開示)
    • 金融市場でのイベント
      • 1日あたり1350億件
    • 登録情報
      • 65万件のアクティブ登録者
    • 金融レポート
      • 3600超のメンバー企業
  • 時間指定を調査
    • Eメール
    • 取引トランザクション
    • 株式持高
    • 書面による監督手続き
    • 証券ジャーナル
    • 資金移動
  • これらのデータを審査官に提供

FINRAの調査手順

  • データ収集
  • 調査の範囲
  • 調査実施

Eメールコンテンツ分析

  • 大量のメール
  • 一刻を争う時間的制約
  • 限られた傾向分析
  • 選択バイアス

アーキテクチャ

  • Amazon SageMaker
    • ノイズ削減
  • Amazon Textract
    • データ抽出
  • Amazon Comprehend
    • 自然言語処理

サンプルアウトプット

成果

  • 以前は埋もれていたデータに、簡単にアクセス可能に
  • Eメール参照時間を60%削減
  • 規制の有効性向上

まとめ

Amazonの各種AIサービスを利用した、大規模デジタルコンテンツからデータ、洞察、傾向を抽出する方法が紹介されました。

デジタルデータは、年々増える一方ですが、効果的なAIサービスを利用して、効果的なデジタルコンテンツの管理を行い、日々の業務を効率化できればと思いました。

それぞれのAIサービスについては、弊社ブログの特集カテゴリーをご参照ください。 Amazon Transcribe、Amazon Translate、Amazon Comprehend については、日本語にも対応していますので、興味のある方はぜひご活用ください。

各AIサービスの特集カテゴリー

Transcribe – 特集カテゴリー –
Translate – 特集カテゴリー –
Textract – 特集カテゴリー –
Comprehend – 特集カテゴリー –

各AIサービスの日本語対応状況

Amazon Transcribe、Amazon Comprehend の2つのサービスは、今回のre:Invent 前のアップデートで日本語対応が発表されています。

サービス名 日本語対応状況
Amazon Transcribe 対応済み
Amazon Translate 対応済み(2018年)
Amazon Textract 未対応
Amazon Comprehend 対応済み

【Speech to Text】Transcribeが日本語に対応しました!【日本語音声を文字へ】

[アップデート]Amazon Comprehendで日本語テキストの分析ができるようになりました