モダンデータスタック カテゴリ紹介 #17 『Data Lakes(データレイク)』 – Modern Data Stack Categories Overview Advent Calendar 2023

2023.12.17

当エントリは『Modern Data Stack Categories Overview Advent Calendar 2023』 17日目のエントリです。

データ分析、データを扱う世界では昨今『モダンデータスタック(Modern Data Stack/MDS)』という考え方、サービス構成が大きな注目を浴びています。データの収集、処理、保存、分析に使用されるツールとクラウドデータサービスを集めたソリューションを指す言葉です。クラスメソッドとしてもこのモダンデータスタック(Modern Data Stack/MDS)を推しており、下記の内容でお客様にサービスとして提供しています。

このモダンデータスタックという考え方、現在では構成するサービス群のジャンルが非常に多岐に渡ってきています。このカテゴリ分けも正直企業や個人によって定義が分かれていたりするのですが、『Modern Data Stack - Everything that you need to know !』というサイトではこのカテゴリ分類がシンプルかつ分かりやすく展開されています。このアドベントカレンダー企画では、このサイトで展開されているカテゴリ毎について内容を理解することで見識を広め、今後のサービス展開・サービス選択を検討する足掛かりとして行きたいと思います。

当エントリでは、Modern Data Stack(MDS)におけるカテゴリ『Data Lakes(データレイク)』の内容について紹介します。

目次

 

モダンデータスタック(Modern Data Stack/MDS)における『データレイク』とは

アドベントカレンダー企画の趣旨については1日目のエントリ内『当アドベントカレンダー企画について』をご参照ください。

データレイクとは、構造化・非構造化データをあらゆる規模で保存できる一元的なリポジトリです。

その名前が示す(複数の支流が流れ込む)湖のように、データレイクには構造化データ、半構造化データ、非構造化データ、マシン間データ、ログがリアルタイムで流れ込みます。データレイクはあらゆるスケールのビジネスデータを保持するリポジトリと定義できるでしょう。

データレイクは、そこに入ってくるデータの性質に関して高い柔軟性を提供し、データの種類は問いません。データレイクはデータをネイティブなフォーマットで保持し、後で有用なものに変換することができます。

その他「データレイク」の定義に関しては下記のドキュメントが参考になります。

 

MDSにおける主なデータレイク系サービス

ここではモダンデータスタックにおける『データレイク』のカテゴリで主だったサービスについて幾つか言及していきたいと思います。(ここでの評価はユーザーによるサイト内でのLIKEの数が多いものを中心に見ていきます)

 

Starburst

Starburstは、データレイクとその周辺のデータを活性化する、フル機能のデータレイク分析プラットフォームです。

Starburstのプラットフォームは、時間とコストのかかるマイグレーションを行うことなく、データを発見、整理、利用するために必要な機能を備えています。Starburstを利用することで、チームはより完全なデータにアクセスし、インフラストラクチャーのコストを削減し、特定のニーズに最適なツールを使用し、ベンダーロックインを回避することができます。

その他Starburstに関する基本的な情報は以下の通り。

 

Dremio

Dremioは、クラウドデータレイクストレージ上で直接、ライブでインタラクティブなクエリによってデータを解放する次世代のデータレイクエンジンです。製品の特徴としては以下のようなものを備えています、

  • データのセキュリティと制御
  • SSO認証
  • 自動バックアップ
  • 予測パイプライン
  • インバウンドのなりすまし対応
  • ワークロード管理など

その他Dremioに関する基本的な情報は以下の通り。

 

Databricks

Databricksは、データウェアハウスとデータレイクの長所を組み合わせたレイクハウス・アーキテクチャです。

Databricksを利用することで、あらゆるデータタイプとアセットに共通のデータガバナンスアプローチを導入し、データエンジニアリング、データウェアハウス、データストリーミング、データサイエンス、機械学習など、あらゆるワークロードを単一のデータコピー上で実行できます。

Databricksオープンソースとオープンスタンダードに基づいて構築され、何百ものアクティブなパートナーシップを持つDatabricksは、最新のデータスタックと容易に統合できます。さらに、Databricksはデータ共有にオープンスタンダードのアプローチを採用し、エコシステムの制約を排除しています。最後に、Databricksはクラウド間で一貫したデータプラットフォームを提供し、マルチクラウド環境の摩擦を軽減します。

その他Databricksに関する基本的な情報は以下の通り。

 

各社クラウドベンダーのデータレイク

著名クラウドベンダー各社が提供しているクラウドストレージサービスについても、サイトでは「データレイク」として紹介されていましたので合わせて公式サイトを紹介しておきます。

 

まとめ

という訳で、『Modern Data Stack Categories Overview Advent Calendar 2023』17日目の記事、Data Lakes(データレイク)に関する紹介エントリでした。

明日18日目は『Workflow Orchestration(ワークフローオーケストレーション)』に関する内容となります。お楽しみに!