[レポート] ANT205 : データレイク・アナリティックスのトレンド #reinvent

本記事はAWS re:Invent 2018のセッション「 ANT205 - Technology Trends: Data Lakes and Analytics」のレポートです。

概要


In this talk, Anurag Gupta, VP for AWS Analytic and Transactional Database Services, talks about some of the key trends we see in data lakes and analytics, and he describes how they shape the services we offer at AWS. Specific trends include the rise of machine generated data and semi-structured/unstructured data as dominant sources of new data, the move towards serverless, SPI-centric computing, and the growing need for local access to data from users around the world.

スピーカー

Anurag Gupta

VP, Analytics & RDS

動画

スライド


レポート

イギリスの経済誌「エコノミスト」の表紙を飾った言葉 “The world’s most valuable resource is no longer oil, but data” (世界で最も価値のあるリソースは石油ではなくなり、データとなった)の紹介からセッションがスタートしました。

企業の変化

  • 株式時価総額5位までの企業の流れ
    • 2001年:MicrosoftのみIT、そのほか銀行、ガス、リテールと業界
    • 2016年:全てデータセントリックカンパニーと呼ばれる代表的なIT企業が占めていて、変化がわかりやすくでている
  • データセントリックカンパニーとはテクノロジーを活用し、蓄積したデータの価値を生み、資産とする企業
  • わかりやすい例として4月に実施されたFacebook CEO マーク・ザッカーバーグ氏、米上院公聴会の動画が流れた

データをコストではなくアセットと考えていく

データ・ドリブンな組織にするために、データを無駄にすることはやめて組織のユーザーに使いやすく、データ処理技術を強化していくなど働きかけをしていくのですが、なかなか簡単にはいきません。

主な3つの課題

  • データは人々が思う以上に存在している
    5年毎に10倍増加し続けているので、過去15年のデータがある場合にはおよそ1000倍のプラットフォームのスケールを用意する必要がある。

  • データ分析をする方法が増えている
    11年前はHadoop、8年前はElasticSearch、5年前にPresto、4年前にSparkなどその時々でデータ分析の選択肢が増えている。
    データプロセスエンジンの進化に合わせて、利用しているアーキテクチャーの調整をしていかないといけない。

  • 人々がデータを使う仕事が増えてきている
    データを社内で使って欲しいのと同時に、ユーザーへのアクセス・セキュリティ・コンプライアンスなどをきちんと管理していく必要が出てくる。

データレイク

データレイクははコスト影響のスケールを助ける機能

  • エキストラバイトのデータを格納、ロード、変形、カタログ
  • オープンフォーマットやAPIで他のツールのアクセス可能

新サービス:AWS Lake Formationの発表

AWSのサービス軍

最近のサービスリリース

ユースケース

EPIC GameのFortnite

https://www.epicgames.com/fortnite/en-US/home

世界中で125万人以上が利用するゲームです。
課題として定期的にデザイナーへのフィードバックを提供する必要がありました。

分析プラットフォームは全てAWSで完結させてます

  • S3をデータレイクとして利用
  • 遠隔測定データをKinesisに集約
  • リアルタイム分析をEMR上でSpark利用
  • DynamoDBでリアルタイムのクエリとスコアボードを作成
  • 大規模バッチ処理をAmazon EMRで実行
  • ゲームのデザイナーはデータを利用して判断に活かす
  • 可視化部分はTableauを利用

EQUINOX

アメリカ、ロンドン、カナダで200拠点以上展開しているフィットネスクラブです。 https://www.equinox.com/

  • 98のフィットネスクラブ・200以上のスタジオを保有
    • パーソナルトレーニング、プラティス、スパ、グループフィットネス、会員、物販、リテール、フードサービス
  • それらを補う機能
    • デジタルプロダクト、CRM、マーケティング、クリエイティブ、デベロップメント、構築、ファイナンス、会員サービス、メンテナンス

テクノロジーとの組み合わせ

  • デジタル製品:携帯やApple HomeなどエンドユーザーのアプリケーションやApple Health
  • 装置との連携:サイクリング経験の追跡、有酸素運動、デジタルアセスメント、位置情報追跡

データレイクのアーキテクチャー
AdobeやSNSなど複数箇所からデータを加工・統合処理し、Redshiftやデータレイクに集約しています。

Adobe Analyticsのパイプライン

  • プロモーション情報を主に扱い、S3バケットに蓄積
  • カラムナフォーマット『Parquet』へEMRで変換
  • 日次ファイルをS3へデータレイクとして利用
  • Athenaに日毎にテーブル分割
  • メタデータをGlueでデータカタログ化
  • Redshift Spectrumでクエリ実行

結果
時間短縮とエンドユーザーの生産性向上へと繋がりました

  • 1年以内でプラットフォームの再構築と本番化
  • 4ヶ月で2つのアプリケーション
  • 運用改善
  • 自動回帰による時間短縮
  • コスト削減

データとは何を指しているのか

データレイクの話をしてきましたが、データについて深掘りしていきます。
最近の分析やデータを表すときにTableauは非常に良い表現方法になると思います。

データと呼ばれるのはカスタマーエクスペリエンスと深く関連をしてきます。
Amazonだと3つが「データ」です。

  • Amazon Echo:何を質問するか、どう答えるか、質疑応答によりユーザーの属性を取得する
  • Amazon Go:何を買うか、何を見たかなどカスタマージャーニーからデータを取得する
  • Amazon Prime Now:受注から1時間以内に配達するために地理情報を利用してデータを取得する

集まったデータをどのように利用していくのかが課題になっていきます。
データ活用をしていくためのレポート・分析・モデル作成・企画の一連の流れは今までと変わりません。

データを考え直す例えとして、2つが挙げられました。

  • 飛行機で席に座っている人の属性に合わせて映画やコンテンツを提供できたらより価値を生み出せるかもしれない
  • コーヒーショップを経営している場合、Amazon Rekognitionを利用して常連客入店してきたらすぐに認識してオーダーや会話を準備して提供できるようになるかもしれない

この他にもカスタマージャーニーと合わせて、様々な視点でデータ活用が考えられます。

新しいアプリケーションの実装

  • AmazonのPrime Dayの場合、合計3.34兆、ピーク時には秒間12.900万のリクエスト数がDynamoDBへAlexa、Amazon.comのサイト、問い合わせセンターから送られる
  • 顧客は数秒待たされるだけで不満に思ってしまう。
  • アプリケーションを計画する際にデータベースをシームレスにスケースアップ・ダウンを容易にできるようにしておく

時系列データベース

  • 迅速に、拡張性高く、フルマネージドを実現
  • 過去の問合せ履歴とその関連事項を時系列毎に管理をしていく

AWS Managed Blockchainの活用

最後に

データはパワーを持っていて、それを他の人たちへ提供や他のツールへ連携をすることで業務の最適化に繋がります。時系列や関連性からさらにコンシューマーだけでなく、ビジネス側や意思決定者の経験を豊富にしていくことができるという説明でセッションが終了しました。

まとめ

データがどの組織にとっても戦略的なアセットとして認知されている背景やデータレイク・アナリティックスのトレンドを含めてAWSのサービス紹介でした。データ分析をこれからしていきたいと思う方は、AWSを活用してみてはいかがでしょう。