モダンデータスタック カテゴリ紹介 #2 『Data Workspace/Collaboration(データワークスペース/コラボレーション)』 – Modern Data Stack Categories Overview Advent Calendar 2023

2023.12.02

当エントリは『Modern Data Stack Categories Overview Advent Calendar 2023』 2日目のエントリです。

データ分析、データを扱う世界では昨今『モダンデータスタック(Modern Data Stack/MDS)』という考え方、サービス構成が大きな注目を浴びています。データの収集、処理、保存、分析に使用されるツールとクラウドデータサービスを集めたソリューションを指す言葉です。クラスメソッドとしてもこのモダンデータスタック(Modern Data Stack/MDS)を推しており、下記の内容でお客様にサービスとして提供しています。

このモダンデータスタックという考え方、現在では構成するサービス群のジャンルが非常に多岐に渡ってきています。このカテゴリ分けも正直企業や個人によって定義が分かれていたりするのですが、『Modern Data Stack - Everything that you need to know !』というサイトではこのカテゴリ分類がシンプルかつ分かりやすく展開されています。このアドベントカレンダー企画では、このサイトで展開されているカテゴリ毎について内容を理解することで見識を広め、今後のサービス展開・サービス選択を検討する足掛かりとして行きたいと思います。

当エントリでは、Modern Data Stack(MDS)におけるカテゴリ『Data Workspace/Collaboration(データワークスペース/コラボレーション)』の内容について紹介します。

目次

 

モダンデータスタック(Modern Data Stack/MDS)における『データワークスペース/コラボレーション』とは

アドベントカレンダー企画の趣旨については1日目のエントリ内『当アドベントカレンダー企画について』をご参照ください。

データワークスペース(Data Workspace)は、基本的にはBIツールを多くの特徴を共有しつつ、それ以外にも柔軟性、コラボレーション、成果物の広範な共有といった機能や特徴を兼ね備えているサービス、という定義になっているようです。サイトで定義されている『データワークスペース』の特徴は大きく4つ。

  • 知識の整理が出来ること:得た情報を整理して閲覧出来るようにしておける。例としてNotionやAirbnbのKnowledge Repoが挙げられている
  • 柔軟なアナリティクス体験を提供していること:分析作業を行うための非常に柔軟なインターフェイスを備えている。
  • コラボレーション、共有、パブリッシングが出来ること: 分析プロジェクトのアウトプットを、非技術者のユーザーと簡単に共有できる。成果物は、伝統的なダッシュボードのようなものもあれば、型にはまらず、ストーリー、文書、ツールなどの形で提供される。また成果物の多くはライブであったりインタラクティブだったりする。
  • 組織的な管理とインフラが提供されていること:きめ細かいアクセス制御、監査ログ、価格の透明性、ユーザー権限など。

また、BIツールとの特徴比較では以下のような特徴分けをしています。

  • BIツール
    • ポイント・アンド・クリックの探索やタイル化されたダッシュボードを通じて、組織全体の分析をセルフサービスで実行
    • よりシンプルな分析には適している
    • 一方で複雑な分析になると限界があり、技術的なデータ実務者のニーズを満たすには不十分となることがある
  • データワークスペース
    • 「分析的な技術者」ユーザーに対して、より深い探索や複雑なモデリングなど、BIツールでは単純に実行できないことに必要な深さとパワーを提供
      • より分析的なアクションを行えるように、SQLやPython、Rといった言語に対応しているものがある

MDSにおける主なデータワークスペース/コラボレーションツール系サービス

ここではモダンデータスタックにおける『データワークスペース/コラボレーション』のカテゴリで主だったサービスについて幾つか言及していきたいと思います。(ここでの評価はユーザーによるサイト内でのLIKEの数が多いものを中心に見ていきます)

 

Hex

Hexは、アイデアから分析、共有までを簡単に行える共同データワークスペースです。SQLやPythonのノートブックで作業したり、ライブでコラボレーションしたり、誰でも使えるインタラクティブなデータアプリを公開出来ます。クラスメソッドが提案するモダンデータスタックサービスのSnowflakeやdbt等と組み合わせて使うことも可能です。

ちなみにDevelopersIOでは、Hexの記事数は4件あります。(※投稿日現在)

その他Hexに関する基本的(初歩的)な情報は以下の通り。

 

Deepnote

Deepnoteは、データを最初から最後まで探索、分析、プレゼンテーションするためにチームをまとめるノートブックサービスです。Jupyterと互換性があり、クラウド上でリアルタイムのコラボレーションが可能となっています。その他特徴としては以下のようなものがあります。

  • GitHubやGitLab、Amazon S3、MongoDB、GCSバケット、PostgreSQL接続との統合
  • デプロイメントを提供するデータサイエンスブックの提供。
  • プロジェクト作業のレビュー
  • データ視覚化

その他Deepnoteに関する基本的(初歩的)な情報は以下の通り。

 

Count

Countはコラボレーティブなデータホワイトボードです。SQL IDE、Pythonノートブック、BIツールのすべてのパワーを、反応的なリアルタイムのキャンバスに統合します。

CountではIDEで一度に1つのクエリを処理する代わりに、キャンバスで思考プロセス全体を1つの場所にレイアウトし、答えだけでなく、そこに至った経緯も説明できます。その他特徴としては以下のようなものがあります。

  • SQL、Python、ドラッグ&ドロップのクエリビルダを使ってデータを分析
  • dbtモデルのインポートとエクスポートDuckDBとPythonを使用して、データベースに対して、またはブラウザ上でローカルにクエリを実行。
  • キャンバスを共有することで、チームメイトからのヘルプや関係者からのフィードバックを得ることができる。
  • 任意のキャンバスをダッシュボード、レポート、対話型アプリ、スライドデッキに変換可能

その他Countに関する基本的(初歩的)な情報は以下の通り。

 

まとめ

という訳で『Modern Data Stack Categories Overview Advent Calendar 2023』2日目の記事、データワークスペース/コラボレーションに関する紹介エントリでした。

冒頭説明でもあった通り、位置付けとしてはBIツールに近いものがありますが、確かにBIツール以外でやりたいことも色々発生し得るのを考えるとこういったデータワークスペース・コラボレーション系のサービスも便利だし使ってみたいなと思えました。個人的にはCount.coに興味が出てきた感じです。

明日3日目は『Data Modelling and Transformation(データモデリングと変換)』に関する内容となります。お楽しみに!