Developers.IO 2019 Tokyoで「Effective Datalake 〜基礎からわかるデータレイクの定義と実践〜」というタイトルで発表してきました #cmdevio

クラスメソッドの石川です。

先日開催いたしましたDevelopers.IO 2019 in TOKYOにお越し頂きましてありがとうございました。 表題の通り、データレイクについてお話をさせて頂きました。

スライド

こちらがスライドになります。

こんな事を話してた

  • はじめに
  • データレイクとは
  • AWS Glue
  • Aamzon Athena / Redshift Spectrum
  • データ設計のベストプラクティス
  • Redshiftからデータレイクの移行
  • AWS Lake Formation
  • まとめ

まとめ

Glue/Athena/Redshift Spectrumで始まったAWSのデータレイクは、Lake Formationによって統合され大きな進化を遂げました。その過程を私なりの解釈と定義に基づいて、現在に至る基礎的なサービスとその動作原理、データ設計のベストプラクティスについて解説しました。一方、データレイクは、S3上のイミュータブルなデータに対するクエリであるため、レコードの削除や更新には不向きです。DWHとデータレイクを使い分けるポイントとなります。その点では最新のRedshiftはDWHとデータレイクのハイブリッドであり、かつ参照を自動で水平スケーリングできるので最も柔軟な構成といえるでしょう。

データレイクの登場の背景は、従来のDWHの課題やデータ分析環境の変化に伴うものです。AWSのデータレイクの特長は、ロードレスかつオープンなファイルフォーマットの採用です。単に低コスト・高性能であることではなく、機械学習/深層学習をはじめとする様々なオープンソースのエコシステムとの連携することを想定したサービスです。つまりAWSを中心とした様々なデータプラットフォームとなることです。

この機会に一人でも多くの方にAWSのデータレイク関連サービス/AWS Lake Formationに興味を持っていただければ幸いです。