[レポート] 干し草の山から針を見つける：AIを使用してコンテンツ管理を変革する #AIM206 #reinvent

AWS re:Invent 2019

川崎照夫

2019.12.13

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

DA事業本部の川崎です。

本記事はAWS re:Invent 2019のセッションレポートとなります。

概要

Finding digital content, from documents to media, can be frustrating and time-consuming. Across your employees or customers, this challenge can waste hours, derail projects, and create poor experiences. In this breakout session, learn how to use language and vision AI services to extract data, insights, and trends from all of your digital content, with a focus on how to more effectively manage your documents and find what you need.

ドキュメントからメディアまで、デジタルコンテンツを見つけるのはイライラし、時間がかかる場合があります。従業員または顧客全体で、この課題は時間を浪費し、プロジェクトを脱線させ、劣悪な体験を生み出します。このブレークアウトセッションでは、言語およびビジョンAIサービスを使用して、すべてのデジタルコンテンツからデータ、洞察、傾向を抽出する方法を学びます。ドキュメントをより効果的に管理し、必要なものを見つける方法に焦点を当てます。

スピーカー

Udi Hershkovich - Sr. Business Development Manager, Amazon Web Services
Niranjan Hira - Product SA, Amazon Web Services
Girish Arunagiri - Director, Technology, FINRA

アジェンダ

増え続けるコンテンツの山
AIサービスを使用して、干し草の山から針を見つける方法
事例：
FINRA ― 金融規則違反の調査

増え続けるコンテンツの山

非構造化コンテンツの山

ナレッジワーカーが情報の検索に費やす時間の44％が、仕事に必要な情報を見つけられずに終わる

非構造化コンテンツの山

深い階層のアーカイブ
- 検索対応アプリ（資産の収益化）
エンタープライズナレッジ
- 従業員の生産性（人事、IT、法務のハウツー文書）
eDiscovery (電子証拠開示制度)
- Insightアプリ（リレーションシップが問題）
サポート
- セルフサービス（FAQは無い）

何が問題か？

非構造化コンテンツの爆発
スキャンされた、テキスト化されていないコンテンツ
マルチメディアコンテンツ
マルチリンガルコンテンツ

AIサービスを使ったリファレンスアーキテクチャを紹介

Amazon Textract
Amazon Transcribe
Amazon Translate

アップロードが簡単にできる、セキュアなリポジトリ、保存に最適化されている
- S3

アーキテクチャの全体像

アップロードが簡単にできる、セキュアなリポジトリ、保存に最適化されている
- S3
データ処理コストを削減するサーバーレスアーキテクチャ
- Lambda
コンテンツを「正規化」する、AIサービス
- Amazon Textract
- Amazon Transcribe
- Amazon Translate
自然言語処理がドキュメントの分類を支援、キー項目やキーフレーズを抽出
- Amazon Comprehend
グラフDBが関連ドキュメントの特定を支援する
- Amazon Elasticsearch Services
- Amazon Neptune
- Amazon SageMaker

いくつかのケースでは、カスタムソリューションを構築

事例紹介

Alfresco

ドキュメントをインサイトに
- Alfrescoは、Amazon Textractを利用して、顧客ドキュメントから興味・関心のデータ抽出、データ投入を自動化し、新しいインサイトを作り出す

MARINUS ANALYTICS

人身売買と闘う
- Marinus Analyticsは、Amazon Rekognitionを使い、人身売買の犠牲者を探し出す
- 法律執行機関が人身売買業者を起訴するのを支援する

Lexbe

数百万のドキュメントを大規模に分析
- LexbeはAmazon Translateを使い、国境を越えた訴訟や、多言語の法的問題におけるeDiscovery (電子証拠開示制度)文書の処理に必要な速度と制度を達成

FINRAの事例紹介

FINRAについて

米国の金融業規制機構のこと。Financial Industry Regulatory Authorityの略。＜中略＞米国のすべての証券会社が加盟する非政府規制機関。

日本証券業協会のWebページより

FINRAについて
- 投資家の保護
- 市場の完全性
ルールを施行
- 会社とブローカーを管理するルールを作成し施行
調査を実施
- ルールの遵守について会社を調査
投資家を保護
- 公正で透明な市場を奨励しサポート
投資家の教育
- さまざまな金融トピックに関する教育リソースを提供

我々は大量のデータを処理する

ファイリング制度(公開情報開示)
- 金融市場でのイベント
  - 1日あたり1350億件
- 登録情報
  - 65万件のアクティブ登録者
- 金融レポート
  - 3600超のメンバー企業
時間指定を調査
- Eメール
- 取引トランザクション
- 株式持高
- 書面による監督手続き
- 証券ジャーナル
- 資金移動
これらのデータを審査官に提供

FINRAの調査手順

データ収集
調査の範囲
調査実施

Eメールコンテンツ分析

大量のメール
一刻を争う時間的制約
限られた傾向分析
選択バイアス

アーキテクチャ

Amazon SageMaker
- ノイズ削減
Amazon Textract
- データ抽出
Amazon Comprehend
- 自然言語処理

サンプルアウトプット

成果

以前は埋もれていたデータに、簡単にアクセス可能に
Eメール参照時間を60%削減
規制の有効性向上

まとめ

Amazonの各種AIサービスを利用した、大規模デジタルコンテンツからデータ、洞察、傾向を抽出する方法が紹介されました。

デジタルデータは、年々増える一方ですが、効果的なAIサービスを利用して、効果的なデジタルコンテンツの管理を行い、日々の業務を効率化できればと思いました。

それぞれのAIサービスについては、弊社ブログの特集カテゴリーをご参照ください。 Amazon Transcribe、Amazon Translate、Amazon Comprehend については、日本語にも対応していますので、興味のある方はぜひご活用ください。

各AIサービスの特集カテゴリー

Transcribe – 特集カテゴリー –
Translate – 特集カテゴリー –
Textract – 特集カテゴリー –
Comprehend – 特集カテゴリー –

各AIサービスの日本語対応状況

Amazon Transcribe、Amazon Comprehend の2つのサービスは、今回のre:Invent 前のアップデートで日本語対応が発表されています。

サービス名	日本語対応状況
Amazon Transcribe	対応済み
Amazon Translate	対応済み（2018年）
Amazon Textract	未対応
Amazon Comprehend	対応済み

【Speech to Text】Transcribeが日本語に対応しました！【日本語音声を文字へ】

[アップデート]Amazon Comprehendで日本語テキストの分析ができるようになりました

[レポート] 干し草の山から針を見つける：AIを使用してコンテンツ管理を変革する #AIM206 #reinvent

概要

スピーカー

アジェンダ

増え続けるコンテンツの山

非構造化コンテンツの山

非構造化コンテンツの山

何が問題か？

AIサービスを使ったリファレンスアーキテクチャを紹介

アーキテクチャの全体像

いくつかのケースでは、カスタムソリューションを構築

事例紹介

Alfresco

MARINUS ANALYTICS

Lexbe

FINRAの事例紹介

FINRAについて

我々は大量のデータを処理する

FINRAの調査手順

Eメールコンテンツ分析

アーキテクチャ

サンプルアウトプット

成果

まとめ

各AIサービスの特集カテゴリー

各AIサービスの日本語対応状況

関連記事

AWSで探す

注目のテーマ

プロダクトやサービスで探す

特集やシリーズから探す

EVENTS