[レポート] AWSでのデータレイクと分析の概要 #DEM135 #reinvent

AWS re:Invent 2019のセッション"DEM135 AWSでのデータレイクと分析の概要"のレポートです。
2019.12.13

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

本記事では、AWS re:Invent 2019で実施されたセッション「DEM135 "Introduction to data lakes and analytics on AWS"」の内容をレポートします。

セッション情報

概要

Are you interested in analytics on AWS but unsure of where to begin? This talk provides a quick overview of the full range of AWS analytics services, such as big data processing with Amazon EMR, data warehousing with Amazon Redshift, streaming analytics with Amazon Kinesis, ad hoc query with Amazon Athena, data integration and ETL with AWS Glue, and building data lakes with AWS Lake Formation.

AWSの分析に興味がありますが、どこから始めればよいのかわかりませんか?このトークでは、Amazon EMRを使用したビッグデータ処理、Amazon Redshiftを使用したデータウェアハウジング、Amazon Kinesisを使用したスト​​リーミング分析、Amazon Athenaを使用したアドホッククエリ、AWS Glueを使用したデータ統合やETLなど、AWS分析サービスの全範囲の概要を説明します、AWS Lake Formationでデータレイクを構築します。

スピーカー

会場の様子

本セッションは、メイン会場のEXPO HallにあるAWSブースの一角で実施されました。ここでのセッションは特に予約もなく聴講が可能でした。

セッションレポート

Fortniteの事例

  • Fortnite(フォートナイト)とは、Epic Gamesが多数のゲームプラットフォームで販売・配信しているオンライン対戦型のシューティングゲーム
  • 常時ペタバイト級のデータがリアルタイムで流れており、それらはAWSの基盤上で管理されている

データからのより高い価値提供が求められている

  • データ利用の視点
    • データが指数関数的に成長する
    • データソースが増える
    • (データの種類がますます多様化する)
    • 沢山の人に利用される
    • 沢山のアプリケーションで分析される
  • データ管理の視点
    • 混乱:システム単位でのデータ管理アプローチはもう限界、オンプレにデータを抱えるのも量的費用的に高コスト
    • その真意:洞察と価値を引き出す新しいアプローチが求められている

未来のデータ管理の姿は、"クラウド上のデータレイク"である

  • 顧客が求めているもの
    • 拡張可能でコスト効果の高い単一のデータストアであること
    • 標準フォーマットで安全に格納できること
    • 様々な方法で分析できること

なぜ、AWSはデータレイクプラットフォームとして選ばれるのか?

最も包括的でオープン

  • 以下の要素それぞれにおいて多数のサービスを提供
    • データ可視化、エンゲージメント、機械学習
    • 分析
    • データレイク基盤とその管理
    • データの移動(移行、収集)

最も安全

  • 顧客はデータレイクに対して複数レベルのセキュリティ、ID管理、アクセス管理、暗号化、コンプライアンス準拠を欲している
  • それらは、AWSのサービスで提供が可能

  • また、上記の通り各国のセキュリティ基準に準拠

最も費用対効果が高い

  • S3
    • $0.004〜$0.023/GB月
  • EC2
    • スポットインスタンスで最大90%off
  • EMR
    • IDCレポートによると、オンプレより57%低価格
  • Redshift
    • 既存のオンプレDWHと比較して1/10以下の利用費
  • Athena & QuickSight
    • サーバレス形式の利用セッション分だけ課金する形態

広く使われている

  • (下図)全ての業態で、何万ものデータレイクがAWS上で稼働している

まとめ

「データレイクを作りたいのだけど、AWSでちゃんと作れる?」という疑問に答えるセッションでした。詳細は各サービスの情報を別にあたる必要がありますが、AWSを知らない人の取っ掛かりとして良いきっかけになりそうだと思いました。