[レポート] AWS Data Exchange:クラウドでサードパーティのデータを簡単に見つけて購読する #ANT238 #reinvent

本記事では、AWS re:Invent 2019で実施されたセッション「"ANT238-R1" AWS Data Exchange: Easily find & subscribe to third-party data in the cloud」の内容をレポートします。

セッション情報

概要

AWS Data Exchange makes it easy to find, subscribe to, and use third-party data in the cloud.This session explores how AWS Data Exchange removes the friction of finding, licensing, and using datasets. Without it, you might spend days or weeks licensing data and moving it where you need it to power analytics. Learn to use AWS Data Exchange to fuel in-place analytics with AWS services like Amazon Athena and Amazon QuickSight. For data providers, learn how AWS Data Exchange makes it easy to reach millions of customers migrating to the cloud by removing the need to build and maintain infrastructure for data storage, delivery, billing, and entitling.

AWS Data Exchangeを使用すると、クラウド内のサードパーティデータを簡単に検索、サブスクライブ、使用できます。このセッションでは、AWS Data Exchangeがデータセットの検索、ライセンス供与、使用の摩擦をどのように取り除くかについて説明します。これがないと、データのライセンスを取得し、必要な場所に移動して分析を強化するために数日または数週間を費やす可能性があります。 AWS Data Exchangeを使用して、Amazon AthenaやAmazon QuickSightなどのAWSサービスでインプレース分析を促進する方法を学びます。データプロバイダーについては、AWS Data Exchangeを使用して、データストレージ、配信、請求、資格付与のためのインフラストラクチャを構築および維持する必要性を排除することで、クラウドに移行する何百万人もの顧客に簡単にアクセスできるようにする方法を学びます。

スピーカー

  • Stephen Orban - GM, New Initiative, AWS Marketplace, Amazon Web Services
  • Joshua Cohen - SVP Product, Foursquare
  • Hicham Oudghiri - CEO & Co-Founder, Enigma
  • Akram Chetibi - Sr Product Manager, AWS Data Exchange, Amazon Web Services

動画

スライド

セッションレポート

AWS Data Exchange提供の背景

  • 企業はより良い意思決定を行うために、より多くのソースから多くのデータを使用している
    • よりスマートな金融サービス提供のための市場データ、企業データ、ニュースフィード
    • 新薬発見のための、治療法の有効性を理解するための証拠データ
    • 適切なタイミングで適切なオーディエンスにリーチするマーケティングの為のセンチメントデータ
    • 自然災害に対応するための人工衛星の画像と位置情報
    • 保険料算出の為の自動車のセンサーから発生する各種データ
  • 顧客の期待も変わった
    • データ操作の全てを使いやすく
    • 全てをクラウドネイティブに
    • システムを跨がないシームレスなデータ操作体験を
    • セルフサービスで必要なデータを取得したい

  • データ利用者が欲しているデータを提供している企業があったとしても、データ利用者がその提供元に辿り着かない限り、データは利用されることがない
  • 利用者側からみた場合は、欲しいデータをまとめて一箇所で提供してくれるような場所がない

  • データ利用のためのやり取りが面倒臭すぎる
    • データ利用者側
      • HDD、DVD、CDメディアのやりとり
      • FTPサーバ、APIアクセス方法の確認とユーザ認証
    • データ提供側
      • データ提供方法の確立と構築、運用
      • 提供データに対する課金、請求モデルの確立
  • これらがストレスとなり、随分長いことデータ利用が促進されなかった

  • これらの問題を解決するために、AWSでは新サービス"AWS Data Exchange"の提供を始めた
  • 現時点ですぐに90以上のマーケットプレイスから1500以上のデータセットを見つけることができる
    • 金融
    • ライフサイエンス
    • 地理情報
    • 消費者マーケティング

  • データ利用者は、一度このData Exchangeに対してサブスクライブ(利用登録)すれば、APIを通じて、データセットをS3バケット内にネイティブコピーできる
  • データセットはリビジョン管理ができ、提供側が新リビジョンを公開するとCloud Watch Eventsと連携して最新情報を取得する事ができる
  • 利用契約、課金請求は全てAWS側で一括管理
  • AWS Data Exchangeには、様々なメリットがある
    • AWS利用者のロングテールに効率的にリーチすることができる
    • 増え続けるAWSのプロバイダーに参加することができる
    • クラウドネイティブな方法でデータを簡単にインポート、エクスポート、分析できる
    • データストレージ、配信、課金、または資格付与テクノロジーの構築と保守が不要

  • あらかじめセキュリティ&コンプライアンス制御機能を持つ
    • データの暗号化
    • GDPR(EU一般データ保護規則)に則ったサブスクリプション認証
    • AWSのIAM管理機能と統合されたアクセス管理

Foursquare社の取り組み紹介

  • Foursquare社は、ロケーションプラットフォームとして、10年以上10億人に利用されてきた
  • Foursquareのデータは、他社のアプリなど様々なサービスに利用されている
  • Foursquareだけが(これらデータを活用することで)人の好み、興味、行動を理解する事ができる

  • (人々がどこへ行ったかという)データポイントを特定するのは非常に難しい
  • 140億の自社データポイントと専用のプログラム、機械学習アルゴリズムを利用している
  • Amazonとも協力している
  • 約1億のデータポイントと1億のデバイス(サーモグラフィなど)から得られるデータ
  • これらを組み合わせる他にもAWS Data Exchangeから得られる国勢調査や交通量調査なども組み合わせている
  • FoursquareとAWS Data Exchangeのパートナーシップによって、より高い価値のデータを生むことができている

enigma社の取り組み紹介

  • 企業活動の44%はスモールビジネス
  • スモールビジネスの人は車借りるだけでも細かい作業が多い(書類手続き、保険加入、社印を押す…)
  • 個人としてなら5分電話するだけで貸してもらえるのに
  • ローン借りる時も、スモールビジネスってだけで80%の確率でクレジット拒否されてしまう
  • enigmaは、APIを構築して、ビジネス間のより良いエクスペリエンスを実現する
    • 数百の公的および私的ソースから(企業データを)収集する
    • 3,000万以上の企業、2億5,000万以上の人と場所(の情報提供)をプログラムで解決する
    • 信頼できる透明なビジネス属性をモデル化する

  • 信頼できるビジネスインテリジェンスを提供するAPI、を提供
  • ビジネスとそのニーズに真に対応する優れたエクスペリエンスを構築

  • enigma public
    • AWSと連携して、開発者とデータサイエンティストがすぐにデータ活用できる準備を整えている
    • コストと運用上における頭痛のタネを減らす
    • データをすぐに使用できるようにする
    • 業界関係者が何十年も使用しているソースを公開する
  • 業界全体で公開データにアクセスしやすくする
    • 金融と証券
    • BIとコンプライアンス
    • ジャーナリズムと調査研究
    • 市民活動主義と政府

  • 数多くのリソースにアクセス可能
  • 今後期待できること
    • 米国連邦政府から州および地方の情報源への拡大
    • 英国から国際市場への拡大
    • 標準化された開発者向けの標準的なパブリックデータセットのバージョン

AWS Data Exchangeデモ

  • ストーリー
    • "ビーガンバーガー"を開発した起業家という設定
    • ビーガンバーガーをニューヨークのレストランに売り込みたい
    • 営業を優先的に掛けるレストランを抽出したい

  • デモの流れ
    • AWS Data Exchangeにアクセス
    • Foursquareから提供されているレストランを含む施設(Venue)データセットを取得
    • enigmaから提供されている郵便番号別の個人所得税データセットを取得(説明のみ)
    • AWS Glueクローラを使い、施設データセットのデータ型を取得
    • 施設データセットの差分を取得する方法説明
    • Amazon Athenaから施設データと個人所得税データセットにクエリ実行
    • Amazon Quicksiteを使いグラフ化

AWS Data Exchangeにアクセス

  • カテゴリのリストや検索フォームから、目的のデータ提供社、データセットを検索

Foursquareから提供されているレストランを含む施設(Venue)データセットを取得

  • Overviewにどのようなデータが格納されているか記載されている
  • 価格、利用可能期間に関する情報もわかりやすく示されている
  • 利用規約などの内容を確認した上で、サブスクライブ(購読契約)を行う
  • すでにサブスクライブが済んでいるものの二重契約はできないように工夫されている

enigmaから提供されている郵便番号別の個人所得税データセットを取得(説明のみ)

  • サブスクライブしたデータセットは、利用者側で自由に組み合わせることができる

  • データセットの改定はプロバイダによって更改される
  • 差分はファイル形式で提供されるので、S3バケットにエクスポートしてもよいし、ローカルにダウンロードして確認してもよい

AWS Glueクローラを使い、施設データセットのデータ型を取得

  • AWS Glueを使って、エクスポートしたデータの定義情報(メタデータ)を作成する

施設データセットの差分を取得する方法説明

  • 新規リビジョンの取り込みは、CloudWatch Eventと連携したLambdaファンクションを作成することで実装できる

Amazon Athenaから施設データと個人所得税データセットにクエリ実行

  • 取り込んだFoursquare社提供のレストランデータをAthenaで検索する
  • 郵便番号ごとにレストラン数を集計する
  • 別途取り込んでおいたenigmaデータセットを使って、郵便番号毎の特定収入レンジに属する世帯数を集計

Amazon Quicksiteを使いグラフ化

  • 2つのデータセットをQuicksiteに取り込む

  • 郵便番号毎の世帯数と収入を散布図表示

  • レストランの位置を地図上にマッピング

まとめ

AWS Data Exchangeはリリースされて1ヶ月くらいのサービスですが、すでに沢山のデータセットがあり、実際にそれを総合的に利用するデモが見れたのは大変有意義でした。皆さんもデモの部分だけでも参考になると思いますので是非鑑賞ください。
デモで使われているデータセットは1年間無償ですので、手元の環境でも再現したいと思いました。