[レポート] リーダーシップセッション: データレイクと分析のトレンド #ANT206 #reinvent
こんにちは!DA事業本部の大高です!現地ラスベガスがらお送りします。
本記事はAWS re:Invent 2019のセッションレポートとなります。
概要
AWS delivers an integrated suite of services that provides everything needed to quickly and easily build a well-governed data lake with self-serve access to data. In this talk, Rahul Pathak, general manager for Amazon Athena and Amazon EMR, talks about some of the key trends we’re seeing and describes how they shape the services AWS offers. Specific trends include the rise of machine-generated data and semi-structured/unstructured data as dominant sources of new data, the move toward serverless, SPI-centric computing, and the growing need for local access to data from users around the world.
AWSは、データへのセルフサービスアクセスを備えた、適切に管理されたデータレイクを迅速かつ簡単に構築するために必要なすべてを提供する統合サービススイートを提供します。この講演では、Amazon AthenaおよびAmazon EMRのゼネラルマネージャーであるRahul Pathakが、私たちが見ている主なトレンドのいくつかについて説明し、AWSが提供するサービスをどのように形成するかについて説明します。 特定のトレンドには、新しいデータの主要なソースとしてのマシン生成データと半構造化/非構造化データの増加、サーバーレス、SPI中心のコンピューティングへの移行、世界中のユーザーによるデータへのローカルアクセスの必要性の高まりが含まれます。
実際のセッション内容レポートはちょっと長いのでこちらに記載しますが、データレイクと分析に関わるAWSサービスをずらっと紹介するようなセッションでした。
また、途中でRedshiftのスペーシャルデータサポートに関するデモと、 Athenaのフェデレーテッドクエリに関するデモを挟みながら進行しました。
スピーカー
スピーカーは以下の方になります。
- Andi Gutmans - VP, Analytics & ElastiCache, Amazon Web Services
動画
伝統的なデータサイロの集約
- 伝統的なデータサイロ、組織によって異なるデータを、データレイクで集約
S3はデータレイクとして最もポピュラーな選択
どのセッションでも言われますが、何はともあれS3です。
- 無制限のストレージ
- 高い可用性
- コスト効率
ポートフォリオ
データレイク周辺のサービスイメージです。
AWS Lake Formation
- よいスタートポイントになる
- データの収集、アクセスコントロール、新しい洞察の入手と管理
AWS Glue
- Sparkを利用
- サーバレスなのでサーバを意識しなくてよい
- パフォーマンス、コストに優れたETL
Amazon Kinesis
- ストリーミングデータを扱える
- 自動的にElasticsearchやS3へ
- AnalyticsではSQLをサポート
ストリーミングデータの能力
- VPC内でAmazon Kinesis Data Analyticsを利用可能
- Apache Kafkaと簡単に連携
AWS Data Exchange (GA)
Data Exchangeについては知らなかったのですが、これはなかなか面白いですね。
- サードパーティのデータにアクセス可能
- データプロバイダからのデータサブスクライブは簡単
- データプロバイダは利用フィーを課すこともできる
Amazon Redshift
- データレイクに対するデータウェアハウス
- セキュリティーコンプライアンスに対応
- マテリアライズドビューや空間データに対応
Amazon Redshift フェデレーテッドクエリ (Preview)
先日発表されたフェデレーテッドクエリについてです。これからの成長に期待が高まります。
- ペタバイトスケールにも対応できる
- これまでは、S3からウェアハウスにデータを投入する処理が必要だった
- 場合によってはETLも行っていた
- フェデレーテッドクエリによって、もっとリアルタイムにシングルクエリでビジネスの結果を得ることができるようになる
Amazon Redshift RA3インスタンス (GA)
- ストレージとして、ローカルSSDとS3ストレージを持つ
- ハイネットワークバンド対応
- コンピュートとストレージの分離
AQUA - アドバンスドクエリアクセラレータ
こちらも先日発表があった、期待大の機能です。
- 追加コストなしで、他のデータウェアハウスより10倍高速に
Spatial機能のデモ
ここからは、RedshiftのSpatialのデモです。Redhisft上に3つのテーブルデータを持っており、これを地図上で表示するデモとなっています。(胸が熱い!)
画面左下にはクエリ実行結果の詳細が、中央下には実行したクエリが表示されるようになっています。地図上に各Geometryデータが表示されており、それぞれクリックすると詳細情報がポップアップで表示されます。
マウスクリックの近くの地点のデータを地図上に表示するデモです。
GeoJSONを利用して、各エリアの青いポリゴンを表示しています。
赤いデータはジョインしたデータです。
黒いデータは、元データが異なる座標系のデータを座標系変換を行って同じ座標系で表示しています。
Amazon EMR
- Apache Spark, Hadoop, Hive, Presto, HBaseが利用可能
- 低コスト
- 容易に利用可能
Apach Hudi for Amazon EMR (GA)
- 現在はインキュベーションステージ
- Spark, Hive, Prestoでデータレイクのデータ利用が可能
Spark for Amazon EMRにおけるパフォーマンス向上
- Sparkのパフォーマンスの向上が行われた
Amazon Elasticsearch Service (Amazon ES)
- 管理とスケールが容易
UltraWarm for Amazon ES (Preview)
- 大量ログの処理に向く
- 90%のコスト削減
Amazon Athena
- S3に対するクエリの実行
- インフラの管理が不要
- クエリ毎の課金
Amazon Athena用フェデレーテッドクエリ
- Redshiftのフェデレーテッドクエリとは異なる
- アプリケーション間のアクセスを可能とする
- Lambdaベースで接続を行う
- 自由なコネクターを利用でき、どんなシステムでも接続可能
フェデレーテッドクエリのデモ
ここからは、Athenaのフェデレーテッドクエリの実際のデモです。
まずは、想定される利用の全体像です。掲載されているように様々なパターンで利用することが出来ます。
デモでは、ドキュメントDB、HBASE、DynamoDBをデータソースとして、それぞれをJOINしたデータを取得していました。
また、コネクタの提供もされており様々なコネクタを利用することも出来ます。
QuickSight
- サーバーレス
- コストエフェクティブなBI
QuickSightのAPIとカスタマイズ
- API経由でのダッシュボードのデプロイと管理
- テーマ毎の豊富なUI
おさらい
これまで挙げたサービスを利用して、データから洞察を得ましょう。ということでまとめられました。
まとめ
データレイクと分析に関するAWSのサービスを一通り網羅的に紹介されていました。
また、途中にRedshiftのSpatial機能とフェデレーテッドクエリのデモも挟まれており、とても良いセッションでした。個人的には、地図とRedshiftの連携には胸が熱くなりました!
それでは、また!