【レポート】AWS における End to End のサーバーレスデータ分析ソリューション #AWSSummit

AWS Summit Tokyo 2018『AWS における End to End のサーバーレスデータ分析ソリューション』のセッションレポートです。セッション概要：Amazon Athena を活用して Amazon S3 上のデータを分析し、Amazon QuickSight でデータを可視化するサーバーレスなアーキテクチャをご紹介。

AWS Summit Tokyo 2018

AWS イベントレポートサーバーレス

丸毛篤史

2018.06.02

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

AWS Summit Tokyo 2018。Day2 で開催された『AWS における End to End のサーバーレスデータ分析ソリューショ』についてレポートします。

スピーカー

Karthik Kumar Odapally
- Amazon Web Services, Inc. Solutions Architect

セッション概要

Amazon Athena を活用して Amazon S3 上のデータを分析し、Amazon QuickSight でデータを可視化するサーバーレスなアーキテクチャをご紹介します。本セッションの中では、 2009 年から 2016 年におけるニューヨークの全てのタクシーから収集した運航・乗車情報と、 2015 年から 2016 年までのレンタカー（ FHV ）の乗車情報を含むパブリックなデータセットを利用します。そのデータにはピックアップとドロップオフの日付/時刻、ピックアップとドロップオフの場所、乗車距離、項目別運賃、レートタイプ、支払いタイプ、運転手が報告した客数などが含まれており、同データをどのように Amazon Athena で分析し、 Amazon QuickSight で可視化するのかをご覧いただきます。

アジェンダ

AWS ビッグデータサービス
サービス概要
クエリパフォーマンス
リファレンスアーキテクチャ
自習用ワークショップ（付録）

ビッグデータサービス　-サーバーレス-

取り込み
- S3 Transfer Acceleration、マルチパートアップロード
- Kinesis Data Firehose
蓄積
- S3
- DynamoDB
- Kinesis Data Streams
分析/処理
- Athena
- Kinesis Analytics
- Lambda
可視化/利用
- QuickSight
トランスフォーメーション
- AWS Glue

Amazon Athena

クエリを即座に開始
サーバーレス
ETL 不要

Amazon QuickSight

高速なビジネス分析サービス。容易な可視化。

分析
ダッシュボード
ストーリーボード

QuickSight に取り込む方法

Amazon EC2 上で動作するデータベース

SPICE にインポート

S3 に配置されたデータ

Athena を介して
SPICE インポート

RDS

直接取り込める
SPICE にインポート

Redshift および、Redshift Spectrum

直接取り込める
SPICE にインポート

Amazon Glue

現状の課題として、ETLジョブの 70 % が手組で開発されており、 ETL ツールが使用されていない。さらに、クラウド環境になると 90% 以上も手組みでの開発が締めている（ETL を使っていない）

手組みの開発は十分に整理されていないため、大量の手作業を伴う

脆弱
エラー
多大な労力

Glue の特徴

統合されたデータカタログ
自動化されたデータディスカバリ
コード生成
- 事前生成を使うか、組み込まれたコードを使うか選択できる
開発者エンドポイント
柔軟性に優れたジョブスケジューラ

Glue のコンポーネント

データカタログ
- persistent　なメタデータストア
- 自動的にメータデータを抽出してテーブルを作成
ジョブ記述
- コードを自動生成
- 開発者への配慮、編集、デバッグ、共有機能
ジョブ実行
- Spark プラットフォーム上でジョブを実行
Development Endpoints
- ETL コードを繰り返し開発およびテストする環境
- IDEまたは、ノートブック（zeppelinなど）を利用

リファレンスアーキテクチャ

オンプレミス分析パイプライン

オンプレミスの Hadoop クラスタには、以下４つのような問題がある
- スケーラビリティがない
- 停止の影響
- ストレージコンピューティング
- 常時稼働

AWS のリファレンスアーキテクチャ

データエクスポート　は AWS DMS
リアルタイムデータ収集に Kinesis Firehose
ログ集約
ランディング　に S3 バケット
Athena が S3 にクエリ
QuickSight で可視化

データレイクの即時クエリと可視化

S3 --> Glue Crawler --> Glue Data Catalog
ひとつの Glue Data Catalog から即時分析が可能
- Athena
- EMR
- Redshift spectrum
QuickSight で可視化

クエリパフォーマンス

ベストプラクティス　-ストレージ-

データのパーティション化
列思考のデータの生成による最適化
ファイルの圧縮、分割
ファイルサイズの最適化

ベストプラクティス -クエリ-

ORDER BY 最適化
Joins 最適化
GROUP BY 最適化
LIKE 演算子最適化
近似関数の使用
必要な列のみを含める

自習用ワークショップ

Building an End-to-End Serverless Data Analytics Solution on AWS

QuickSight and Athena Workshop

NY のタクシーのデータを使用
- Amazon Athena によるサーバレス分析
- QuickSight による可視化
- Amazon Glue を使用したサーバーレス ETL とデータ検出
- Amazon Redshift Spectrumを使用したAmazon S3 のデータ分析

さいごに

サーバーレス分析基盤のアーキテクチャについて、よく理解できるセッションでした！さらに理解を深めるには「手を動かすこと」ですね！自習用ワークショップも公開されているので、是非、サーバーレス分析を体感したい方はチャレンジしてください！そしてブログでアウトプットしましょう！

以上！大阪オフィスの丸毛（@marumo1981）でした！

【レポート】AWS における End to End のサーバーレスデータ分析ソリューション #AWSSummit

スピーカー

セッション概要