オープンなコミュニティ志向のデータカタログ「data.world」を試してみた
本記事では、今注目されているデータカタログの一つ data.world について紹介とデモを行なっていきます。
そもそも、「データカタログって何?」という方のために軽く説明しておきますと、データカタログとはざっくり、 データベース・データレイク内のデータに対して、概要や特徴量、関連性などをまとめて一覧化しておくサービス です。え、それだけ?と思われるかもしれませんが、現代のデータ基盤はデータソースの数も増加してますし、BIなどから参照する分析用のデータ(データマート)の数も増加していることから、「とりあえずどんなデータがあるのか、ざっくり知りたいんだよね〜。」といったニーズが増えつつあります。
data.worldについて
data.worldは、2015年にアメリカのテキサス州で創業されたデータカタログのベンチャー企業です。data.worldは元々、データに関するオープンなコミュニティ、いわばデータ業界版Facebookのようなサービスとして展開されていましたが、それをエンタープライズ向けに構築したSaaS製品が好評となっています。実際に、メタデータ管理領域におけるGatner社の2020 Magic QuadrantにChallengerとして選出されており、市場からの評価は上々です。
- 企業内でのデータコラボレーションを提供するData.world | TechCrunch Japan
- Gartner names data.world a Challenger in the Magic Quadrant for Metadata Management, 2020 | data.world
data.worldのデータカタログでは、コンセプトとして以下の5点を上げています。
- Findable and accessible with natural-language search that knows what you want
- 欲しい情報を理解する自然言語検索で、見つかりやすく、アクセスしやすい
- Trusted and up-to-date so your reports are always on point
- レポートを常に完璧な状態にできる信頼性と最新の維持
- Connected and in-context using linked data to answer tough questions
- データを繋ぎ、関連性や文脈を見出して、難題にも解答
- Reusable and portable so analysts can focus on new insights, not redundant work
- アナリストが余計な仕事ではなくインサイトの創出に集中できる、再利用性とポータブル性
- Collaborative and actionable so teams can work on projects in real-time
- チームがリアルタイムで作業できる、コラボレーション性とアクション性
また、パブリックに公開されてるデータセットの数も2021年12月時点で16万件を超えており、オープンデータを使用するユーザーのコミュニティとしても活発に機能しています。
open-data data on data.world | 165667 datasets available
data.worldは無料でアカウント作成可能です。さっそく試していきましょう!
デモの実践
まずはアカウントを作成していきます。公式サイト右上のSign In
をクリックします。
data.worldは特に会社情報を要求されず、各種3rd-partyの認証で作成できます。今回はGoogle認証でサインアップします。
その後、Username
を聞かれるので任意のものに設定してください。設定後、下記のHome画面に到着します。真ん中のYour updates
の枠にやるべき内容がカード形式で溜まっていく形式になっており、このタイムライン感がSNSっぽさがあって親しみやすいですね。ひとまず、Create a project
をクリックしてプロジェクトを作成します。
プロジェクト名を入力し、Create project
をクリックします。
プロジェクト作成後、データソースを追加していきます。Add data
をクリックします。
方法としては、Import Data
とMy Data Sources
の2種類あり、Import Data
ではCSVやエクセルといったファイル形式のデータをアップロードしたり、外部のURLと接続してデータをインポートしたりできます。一方My Data Sources
の方は、有効化したインテグレーションが表示されるようになっています。今回はパブリックに配置したRedshiftクラスタに接続していくので、Explore more data sources
をクリックします。
data.worldが提供しているインテグレーションの種類はかなり豊富で、メジャーなクラウドDWHやストレージサービスから、SaaSやアプリまで多岐に渡ります。
Redshiftは下の方に見つかりました。こちらのパネルをクリックします。
Redshiftのインテグレーションの詳細が表示されました。Enable Integration
をクリックして、セットアップを進めていきます。
Redshiftのエンドポイントの情報を入力していきます。Advanced
タブを見るとSSH経由の接続も可能なので、プライベートサブネットに配置しているRedshiftでも何とか接続できそうです。Test Redshift configuration
をクリックし、接続確認が取れたらConfigure
をクリックして確定させます。
再度My Data Sources
の表示を見ると、設定したRedshiftが追加されてました。こちらをクリックします。
Source Typeとして、Live table
とData extract
の2種類用意されています。前者はページにアクセスする度に、data.worldからデータソースへクエリを実行し、data.world自体にはメタデータを保存しないようにするタイプです。後者は逆にメタデータをdata.worldに保存するタイプです。今回はLive table
を選択しました。
スキーマをpublic
に選択します。
Live table
の無料版だと3テーブルのみ選択が可能です。適当に3つ選択します。(これらのテーブルは、Redshiftのクラスタ立ち上げ時にロードできるサンプルデータです。)
Import
を開始すると、左側のパネルにてロードの進捗を把握できるようになっています。
ロードが完了したので、試しにcategory
の中を見てみます。真ん中に大きく表示されるのはサンプルデータ、右側にメタデータが表示されています。テーブル単位ではOwnerやDescriptionといった情報が付与できます。
Add a description
をクリックすると、ポップアップが表示されて編集が可能です。
カラムのinfoマークをクリックすると、ユニーク数や最大・最小・平均といった統計値を確認することができます。
右上のQuery
をクリックするとエディタが開かれ、UI上でそのままSQLを実行することができます。
プロジェクト関連で、その他の機能も見ていきます。メニューのHome下にあるProject summary
は、Markdown形式でドキュメントが書ける、いわゆるWiki的な機能です。
Data dictionary
では、プロジェクトが所持しているカラム情報がリスト形式で並ぶようになっています。
メニュー上のAdd
をクリックすると、追加できるリソース一覧が並びます。
Insight
だけ気になったのでご紹介しますと、こちらはプロジェクトが所持しているリソースを良い感じにまとめて、レポートのようなドキュメントを作成できる機能みたいですね。今はRedshiftのテーブルしかImportしていないので寂しい感じですが、他のサービス、例えばBIやExcelなども貼り付けられれば、かなり便利に使えそう。
さて、今いるページがプロジェクトのワークスペースという画面です。このワークスペースがどういう導線で表示できるかといいますと、まず左のAnalysis
をクリックします。
リストで表示されるredshift
をクリック。
このredshift
のAnalysisページのLaunch workspace
をクリックすれば戻れる、という作りになっています。なのでチュートリアルでいきなり作成したプロジェクトという概念は、Analysisというリソースの一部という定義になっているようです。Analysis画面では、先ほどワークスペースで作成していたSummaryやInsightsといったリソースがここに集約されつつ、右のパネルでタグの付与やアクティビティの確認ができるようになっています。
ユーザー同士のコラボレーションの機能は、Discussion
タブにてやりとりすることができます。
アクセス権限関連は、Settings
のタブで調節可能です。
Analysisの機能ついては以上です。左のメニューでAnalysisの上にあるData
についても見ていきます。こちらはMy Data Sources
ではなく、Import Data
でCSVファイルなどを登録した時に分類されます。自分の環境にはデータセットを登録していませんが、Search all datasets
をクリックして、パブリックデータをブラウジングしてみます。
検索結果画面です。上部のタブや左のチェックボックスで絞り込み、真ん中に検索結果が並ぶといった仕様になっています。Steven Seagal Box Office
をクリックしてみます。
ページの構成的にはAnalysisとほぼ共通しています。ファイルのプレビューや、他のデータセットとの関連付けができるのが良いですね。
以上で大体の機能は網羅できたかなと思います!
所感
data.worldは、ユーザーフレンドリーに設計されたデータカタログという印象を持ちました。付与できるメタデータの種類や、できることが良い意味で限られているので、データ分析に馴染みのない方でもオンボーディングしやすい製品だと思います。データカタログの入門としてオススメですね。
本アドベントカレンダーでは、今話題のデータ関連SaaSを取り上げていきますので、引き続き乞うご期待ください!