produced by Classmethod

[レポート] リーダーシップセッション: データレイクと分析のトレンド #ANT206 #reinvent

AWS re:Invent 2019

レポート Amazon Kinesis Amazon Athena AWS Glue Amazon QuickSight

2019.12.05

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんにちは！DA事業本部の大高です！現地ラスベガスがらお送りします。

本記事はAWS re:Invent 2019のセッションレポートとなります。

概要

AWS delivers an integrated suite of services that provides everything needed to quickly and easily build a well-governed data lake with self-serve access to data. In this talk, Rahul Pathak, general manager for Amazon Athena and Amazon EMR, talks about some of the key trends we’re seeing and describes how they shape the services AWS offers. Specific trends include the rise of machine-generated data and semi-structured/unstructured data as dominant sources of new data, the move toward serverless, SPI-centric computing, and the growing need for local access to data from users around the world.

AWSは、データへのセルフサービスアクセスを備えた、適切に管理されたデータレイクを迅速かつ簡単に構築するために必要なすべてを提供する統合サービススイートを提供します。この講演では、Amazon AthenaおよびAmazon EMRのゼネラルマネージャーであるRahul Pathakが、私たちが見ている主なトレンドのいくつかについて説明し、AWSが提供するサービスをどのように形成するかについて説明します。特定のトレンドには、新しいデータの主要なソースとしてのマシン生成データと半構造化/非構造化データの増加、サーバーレス、SPI中心のコンピューティングへの移行、世界中のユーザーによるデータへのローカルアクセスの必要性の高まりが含まれます。

実際のセッション内容レポートはちょっと長いのでこちらに記載しますが、データレイクと分析に関わるAWSサービスをずらっと紹介するようなセッションでした。

また、途中でRedshiftのスペーシャルデータサポートに関するデモと、 Athenaのフェデレーテッドクエリに関するデモを挟みながら進行しました。

スピーカー

スピーカーは以下の方になります。

Andi Gutmans - VP, Analytics & ElastiCache, Amazon Web Services

動画

伝統的なデータサイロの集約

伝統的なデータサイロ、組織によって異なるデータを、データレイクで集約

S3はデータレイクとして最もポピュラーな選択

どのセッションでも言われますが、何はともあれS3です。

無制限のストレージ
高い可用性
コスト効率

ポートフォリオ

データレイク周辺のサービスイメージです。

AWS Lake Formation

よいスタートポイントになる
データの収集、アクセスコントロール、新しい洞察の入手と管理

AWS Glue

Sparkを利用
サーバレスなのでサーバを意識しなくてよい
パフォーマンス、コストに優れたETL

Amazon Kinesis

ストリーミングデータを扱える
自動的にElasticsearchやS3へ
AnalyticsではSQLをサポート

ストリーミングデータの能力

VPC内でAmazon Kinesis Data Analyticsを利用可能
Apache Kafkaと簡単に連携

AWS Data Exchange (GA)

Data Exchangeについては知らなかったのですが、これはなかなか面白いですね。

サードパーティのデータにアクセス可能
データプロバイダからのデータサブスクライブは簡単
データプロバイダは利用フィーを課すこともできる

Amazon Redshift

データレイクに対するデータウェアハウス
セキュリティーコンプライアンスに対応
マテリアライズドビューや空間データに対応

Amazon Redshift フェデレーテッドクエリ (Preview)

先日発表されたフェデレーテッドクエリについてです。これからの成長に期待が高まります。

ペタバイトスケールにも対応できる
これまでは、S3からウェアハウスにデータを投入する処理が必要だった
場合によってはETLも行っていた
フェデレーテッドクエリによって、もっとリアルタイムにシングルクエリでビジネスの結果を得ることができるようになる

Amazon Redshift RA3インスタンス (GA)

ストレージとして、ローカルSSDとS3ストレージを持つ
ハイネットワークバンド対応
コンピュートとストレージの分離

AQUA - アドバンスドクエリアクセラレータ

こちらも先日発表があった、期待大の機能です。

追加コストなしで、他のデータウェアハウスより10倍高速に

Spatial機能のデモ

ここからは、RedshiftのSpatialのデモです。Redhisft上に３つのテーブルデータを持っており、これを地図上で表示するデモとなっています。（胸が熱い！）

画面左下にはクエリ実行結果の詳細が、中央下には実行したクエリが表示されるようになっています。地図上に各Geometryデータが表示されており、それぞれクリックすると詳細情報がポップアップで表示されます。

マウスクリックの近くの地点のデータを地図上に表示するデモです。

GeoJSONを利用して、各エリアの青いポリゴンを表示しています。

赤いデータはジョインしたデータです。

黒いデータは、元データが異なる座標系のデータを座標系変換を行って同じ座標系で表示しています。

Amazon EMR

Apache Spark, Hadoop, Hive, Presto, HBaseが利用可能
低コスト
容易に利用可能

Apach Hudi for Amazon EMR (GA)

現在はインキュベーションステージ
Spark, Hive, Prestoでデータレイクのデータ利用が可能

Spark for Amazon EMRにおけるパフォーマンス向上

Sparkのパフォーマンスの向上が行われた

Amazon Elasticsearch Service (Amazon ES)

管理とスケールが容易

UltraWarm for Amazon ES (Preview)

大量ログの処理に向く
90%のコスト削減

Amazon Athena

S3に対するクエリの実行
インフラの管理が不要
クエリ毎の課金

Amazon Athena用フェデレーテッドクエリ

Redshiftのフェデレーテッドクエリとは異なる
アプリケーション間のアクセスを可能とする
Lambdaベースで接続を行う
自由なコネクターを利用でき、どんなシステムでも接続可能

フェデレーテッドクエリのデモ

ここからは、Athenaのフェデレーテッドクエリの実際のデモです。

まずは、想定される利用の全体像です。掲載されているように様々なパターンで利用することが出来ます。

デモでは、ドキュメントDB、HBASE、DynamoDBをデータソースとして、それぞれをJOINしたデータを取得していました。

また、コネクタの提供もされており様々なコネクタを利用することも出来ます。

QuickSight

サーバーレス
コストエフェクティブなBI

QuickSightのAPIとカスタマイズ

API経由でのダッシュボードのデプロイと管理
テーマ毎の豊富なUI

おさらい

これまで挙げたサービスを利用して、データから洞察を得ましょう。ということでまとめられました。

まとめ

データレイクと分析に関するAWSのサービスを一通り網羅的に紹介されていました。

また、途中にRedshiftのSpatial機能とフェデレーテッドクエリのデモも挟まれており、とても良いセッションでした。個人的には、地図とRedshiftの連携には胸が熱くなりました！

それでは、また！

この記事をシェアする

AWSのお困り事はクラスメソッドへ

関連記事

[新サービス] 分析と人工知能（AI）をシンプルに統合化したデータレイクハウス、Amazon SageMaker Lakehouse が発表されたので実際に試してみました #AWSreInvent

2024.12.05

[レポート] Improve data lake workload performance with Apache Iceberg on Amazon S3 #AWSreInvent

おざわ（じ）

2024.12.06

[レポート]AWSにおけるエンドツーエンドのデータ統合とデータエンジニアリング #AWSreInvent

2024.12.08

【セッションレポート】 Amazon S3 によるデータレイク構築と最適化（AWS-04） #AWSSummit

2025.06.26