[レポート] ANT205 ：データレイク・アナリティックスのトレンド #reinvent

AWS re:Invent 2018

#AWS

Seira

2018.12.02

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

本記事はAWS re:Invent 2018のセッション「 ANT205 - Technology Trends: Data Lakes and Analytics」のレポートです。

概要

In this talk, Anurag Gupta, VP for AWS Analytic and Transactional Database Services, talks about some of the key trends we see in data lakes and analytics, and he describes how they shape the services we offer at AWS. Specific trends include the rise of machine generated data and semi-structured/unstructured data as dominant sources of new data, the move towards serverless, SPI-centric computing, and the growing need for local access to data from users around the world.

スピーカー

Anurag Gupta

VP, Analytics & RDS

動画

スライド

[slideshare id=124327837&doc=technology-trends-data-lakes-a-5225599e-20f7-4a9a-ac98-2317b43a0110-1624597194-181129030400]

レポート

イギリスの経済誌「エコノミスト」の表紙を飾った言葉 “The world’s most valuable resource is no longer oil, but data” (世界で最も価値のあるリソースは石油ではなくなり、データとなった)の紹介からセッションがスタートしました。

企業の変化

株式時価総額5位までの企業の流れ
- 2001年：MicrosoftのみIT、そのほか銀行、ガス、リテールと業界
- 2016年：全てデータセントリックカンパニーと呼ばれる代表的なIT企業が占めていて、変化がわかりやすくでている
データセントリックカンパニーとはテクノロジーを活用し、蓄積したデータの価値を生み、資産とする企業
わかりやすい例として4月に実施されたFacebook CEO マーク・ザッカーバーグ氏、米上院公聴会の動画が流れた

データをコストではなくアセットと考えていく

データ・ドリブンな組織にするために、データを無駄にすることはやめて組織のユーザーに使いやすく、データ処理技術を強化していくなど働きかけをしていくのですが、なかなか簡単にはいきません。

主な3つの課題

データは人々が思う以上に存在している
5年毎に10倍増加し続けているので、過去15年のデータがある場合にはおよそ1000倍のプラットフォームのスケールを用意する必要がある。
データ分析をする方法が増えている
11年前はHadoop、8年前はElasticSearch、5年前にPresto、4年前にSparkなどその時々でデータ分析の選択肢が増えている。
データプロセスエンジンの進化に合わせて、利用しているアーキテクチャーの調整をしていかないといけない。

人々がデータを使う仕事が増えてきている
データを社内で使って欲しいのと同時に、ユーザーへのアクセス・セキュリティ・コンプライアンスなどをきちんと管理していく必要が出てくる。

データレイク

データレイクははコスト影響のスケールを助ける機能

エキストラバイトのデータを格納、ロード、変形、カタログ
オープンフォーマットやAPIで他のツールのアクセス可能

新サービス：AWS Lake Formationの発表

データウェアハウスを数ヶ月ではなく数日で構築する
ポリシーは一貫して実装されるので管理が簡易に
様々な角度からの分析を実現
[新サービス] 安全なデータレイクを簡単に設定できる！AWS Lake Formation が発表されました！ #reinvent ｜ DevelopersIO https://dev.classmethod.jp/cloud/aws/reinvent2018-lake-formation/
AWS Lake Formationを構成する機能群について #reinvent ｜ DevelopersIO https://dev.classmethod.jp/cloud/aws/aws-lake-formation-features/

AWS上でのデータレイク・アナリティクスは次のようになります。

AWSのサービス軍

最近のサービスリリース

ユースケース

EPIC GameのFortnite

https://www.epicgames.com/fortnite/en-US/home

世界中で125万人以上が利用するゲームです。
課題として定期的にデザイナーへのフィードバックを提供する必要がありました。

分析プラットフォームは全てAWSで完結させてます

S3をデータレイクとして利用
遠隔測定データをKinesisに集約
リアルタイム分析をEMR上でSpark利用
DynamoDBでリアルタイムのクエリとスコアボードを作成
大規模バッチ処理をAmazon EMRで実行
ゲームのデザイナーはデータを利用して判断に活かす
可視化部分はTableauを利用

EQUINOX

アメリカ、ロンドン、カナダで200拠点以上展開しているフィットネスクラブです。 https://www.equinox.com/

98のフィットネスクラブ・200以上のスタジオを保有
- パーソナルトレーニング、プラティス、スパ、グループフィットネス、会員、物販、リテール、フードサービス
それらを補う機能
- デジタルプロダクト、CRM、マーケティング、クリエイティブ、デベロップメント、構築、ファイナンス、会員サービス、メンテナンス

テクノロジーとの組み合わせ

デジタル製品：携帯やApple HomeなどエンドユーザーのアプリケーションやApple Health
装置との連携：サイクリング経験の追跡、有酸素運動、デジタルアセスメント、位置情報追跡

データレイクのアーキテクチャー
AdobeやSNSなど複数箇所からデータを加工・統合処理し、Redshiftやデータレイクに集約しています。

Adobe Analyticsのパイプライン

プロモーション情報を主に扱い、S3バケットに蓄積
カラムナフォーマット『Parquet』へEMRで変換
日次ファイルをS3へデータレイクとして利用
Athenaに日毎にテーブル分割
メタデータをGlueでデータカタログ化
Redshift Spectrumでクエリ実行

結果
時間短縮とエンドユーザーの生産性向上へと繋がりました

1年以内でプラットフォームの再構築と本番化
4ヶ月で2つのアプリケーション
運用改善
自動回帰による時間短縮
コスト削減

データとは何を指しているのか

データレイクの話をしてきましたが、データについて深掘りしていきます。
最近の分析やデータを表すときにTableauは非常に良い表現方法になると思います。

データと呼ばれるのはカスタマーエクスペリエンスと深く関連をしてきます。
Amazonだと3つが「データ」です。

Amazon Echo：何を質問するか、どう答えるか、質疑応答によりユーザーの属性を取得する
Amazon Go：何を買うか、何を見たかなどカスタマージャーニーからデータを取得する
Amazon Prime Now：受注から1時間以内に配達するために地理情報を利用してデータを取得する

集まったデータをどのように利用していくのかが課題になっていきます。
データ活用をしていくためのレポート・分析・モデル作成・企画の一連の流れは今までと変わりません。

データを考え直す例えとして、2つが挙げられました。

飛行機で席に座っている人の属性に合わせて映画やコンテンツを提供できたらより価値を生み出せるかもしれない
コーヒーショップを経営している場合、Amazon Rekognitionを利用して常連客入店してきたらすぐに認識してオーダーや会話を準備して提供できるようになるかもしれない

この他にもカスタマージャーニーと合わせて、様々な視点でデータ活用が考えられます。

新しいアプリケーションの実装

AmazonのPrime Dayの場合、合計3.34兆、ピーク時には秒間12.900万のリクエスト数がDynamoDBへAlexa、Amazon.comのサイト、問い合わせセンターから送られる
顧客は数秒待たされるだけで不満に思ってしまう。
アプリケーションを計画する際にデータベースをシームレスにスケースアップ・ダウンを容易にできるようにしておく

時系列データベース

迅速に、拡張性高く、フルマネージドを実現
過去の問合せ履歴とその関連事項を時系列毎に管理をしていく

AWS Managed Blockchainの活用

オープンソースのフレームワークに対応
エンタープライズレベルのセキュリティを完備
Amazon Quantum Ledger Database (QLDB) でオフチェーンの分析も可能
[新サービス] フルマネージドの台帳データベースである、Amazon Quantum Ledger Database (QLDB) が発表されました！ #reinvent ｜ DevelopersIO https://dev.classmethod.jp/cloud/aws/reinvent2018-amazon-quantum-ledger-database/
【速報】【新サービス】AWS Managed Blockchainが発表されました！ #reinvent ｜ DevelopersIO https://dev.classmethod.jp/cloud/aws/reinvent-blockchain/

最後に

データはパワーを持っていて、それを他の人たちへ提供や他のツールへ連携をすることで業務の最適化に繋がります。時系列や関連性からさらにコンシューマーだけでなく、ビジネス側や意思決定者の経験を豊富にしていくことができるという説明でセッションが終了しました。

まとめ

データがどの組織にとっても戦略的なアセットとして認知されている背景やデータレイク・アナリティックスのトレンドを含めてAWSのサービス紹介でした。データ分析をこれからしていきたいと思う方は、AWSを活用してみてはいかがでしょう。

[レポート] ANT205 ：データレイク・アナリティックスのトレンド #reinvent

概要

スピーカー

Anurag Gupta

動画

スライド

レポート

企業の変化

データをコストではなくアセットと考えていく

主な3つの課題

データレイク

新サービス：AWS Lake Formationの発表

ユースケース

EPIC GameのFortnite

EQUINOX

データとは何を指しているのか

新しいアプリケーションの実装

時系列データベース

AWS Managed Blockchainの活用

最後に

まとめ

関連記事

主なカテゴリ

AWSで探す

注目のテーマ

プロダクトやサービスで探す

特集やシリーズから探す

お問い合わせ

運営会社