[レポート] ANT205: データレイクと分析の技術動向 #reinvent

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

西澤です。re:Invent初参戦です。本稿では、以下のセッションについてレポートします。

セッション概要

In this talk, Anurag Gupta, VP for AWS Analytic and Transactional Database Services, talks about some of the key trends we see in data lakes and analytics, and he describes how they shape the services we offer at AWS. Specific trends include the rise of machine generated data and semi-structured/unstructured data as dominant sources of new data, the move towards serverless, SPI-centric computing, and the growing need for local access to data from users around the world.

レポート

  • 全ての組織においてデータは戦略資産である
  • 時価総額の高い企業は大量のデータを持っている企業となっている
    • Apple、Amazon、Alphabet、Microsoft、Facebook、等

  • データはコストではなく資産に
    • 捨ててはダメ
    • より多くのユーザが使えるように
    • データ処理技術を強化
  • データは想像以上に増加している
    • 5年毎に10倍に
    • 15年間で1000倍に
  • 分析する手法もどんどん増えている
    • Hadoop
    • Elasticsearch
    • Presto
    • Spark
  • 以前に比べて、データを取り扱う人が増えているので、ガバナンスが難しくなっている
  • データレイクがコスト効率の高いスケールを可能にする

  • Lake Formation(preview)
    • データレイクの作成
    • セキュリティポリシーを適用
    • 様々な分析手法に対応

  • その他のデータベースや分析用AWSサービスも充実

  • 直近の発表

  • Fortniteの事例
    • データをKinesisに入れて、リアルタイム処理とバッチ処理の2系統に

  • Equinoxの事例
    • Redshiftに集めてPostgreSQLにデータマートを作成
    • S3 -> Athenaの活用

  • データとは何なのかを再考する必要がある
    • Amazon Echo、Amazon Go、Amazon Prime Now
    • 顧客と紐づけてもっと活用できるのではないか
  • これらのデータを活用できる新しい種類のアプリケーションとは?
    • Amazon Prime Dayの例
      • 3.34 trillion、ピーク時の12.9 million/秒をDynamoDBでしょり
    • アプリケーションログ、IoTセンサー、車載端末は時系列DBとして
    • Managed Blockchainの活用
      • オープンソースフレームワーク
      • エンタープライズレベルのセキュリティ要件をクリアしたマネージドサービス
      • QLDBで分析も

まとめ

内容的には意思決定層向けのイメージ図が多めのふわっとした内容でしたが、AWSの新サービスの説明もしっかり加えられていて、データレイク周りのトレンドをつかむのに良い内容だったと思います。もうS3を中心とするデータレイクを利用する前提でデータを取り扱っていくことが標準となる時代も近いと感じました。