オープンなコミュニティ志向のデータカタログ「data.world」を試してみた

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

本記事では、今注目されているデータカタログの一つ data.world について紹介とデモを行なっていきます。

そもそも、「データカタログって何?」という方のために軽く説明しておきますと、データカタログとはざっくり、 データベース・データレイク内のデータに対して、概要や特徴量、関連性などをまとめて一覧化しておくサービス です。え、それだけ?と思われるかもしれませんが、現代のデータ基盤はデータソースの数も増加してますし、BIなどから参照する分析用のデータ(データマート)の数も増加していることから、「とりあえずどんなデータがあるのか、ざっくり知りたいんだよね〜。」といったニーズが増えつつあります。

data.worldについて

data.worldは、2015年にアメリカのテキサス州で創業されたデータカタログのベンチャー企業です。data.worldは元々、データに関するオープンなコミュニティ、いわばデータ業界版Facebookのようなサービスとして展開されていましたが、それをエンタープライズ向けに構築したSaaS製品が好評となっています。実際に、メタデータ管理領域におけるGatner社の2020 Magic QuadrantにChallengerとして選出されており、市場からの評価は上々です。

data.worldのデータカタログでは、コンセプトとして以下の5点を上げています。

  • Findable and accessible with natural-language search that knows what you want
    • 欲しい情報を理解する自然言語検索で、見つかりやすく、アクセスしやすい
  • Trusted and up-to-date so your reports are always on point
    • レポートを常に完璧な状態にできる信頼性と最新の維持
  • Connected and in-context using linked data to answer tough questions
    • データを繋ぎ、関連性や文脈を見出して、難題にも解答
  • Reusable and portable so analysts can focus on new insights, not redundant work
    • アナリストが余計な仕事ではなくインサイトの創出に集中できる、再利用性とポータブル性
  • Collaborative and actionable so teams can work on projects in real-time
    • チームがリアルタイムで作業できる、コラボレーション性とアクション性

また、パブリックに公開されてるデータセットの数も2021年12月時点で16万件を超えており、オープンデータを使用するユーザーのコミュニティとしても活発に機能しています。

open-data data on data.world | 165667 datasets available

data.worldは無料でアカウント作成可能です。さっそく試していきましょう!

デモの実践

まずはアカウントを作成していきます。公式サイト右上のSign Inをクリックします。

data.worldは特に会社情報を要求されず、各種3rd-partyの認証で作成できます。今回はGoogle認証でサインアップします。

その後、Usernameを聞かれるので任意のものに設定してください。設定後、下記のHome画面に到着します。真ん中のYour updatesの枠にやるべき内容がカード形式で溜まっていく形式になっており、このタイムライン感がSNSっぽさがあって親しみやすいですね。ひとまず、Create a projectをクリックしてプロジェクトを作成します。

プロジェクト名を入力し、Create projectをクリックします。

プロジェクト作成後、データソースを追加していきます。Add dataをクリックします。

方法としては、Import DataMy Data Sourcesの2種類あり、Import DataではCSVやエクセルといったファイル形式のデータをアップロードしたり、外部のURLと接続してデータをインポートしたりできます。一方My Data Sourcesの方は、有効化したインテグレーションが表示されるようになっています。今回はパブリックに配置したRedshiftクラスタに接続していくので、Explore more data sourcesをクリックします。

data.worldが提供しているインテグレーションの種類はかなり豊富で、メジャーなクラウドDWHやストレージサービスから、SaaSやアプリまで多岐に渡ります。

Redshiftは下の方に見つかりました。こちらのパネルをクリックします。

Redshiftのインテグレーションの詳細が表示されました。Enable Integrationをクリックして、セットアップを進めていきます。

Redshiftのエンドポイントの情報を入力していきます。Advancedタブを見るとSSH経由の接続も可能なので、プライベートサブネットに配置しているRedshiftでも何とか接続できそうです。Test Redshift configurationをクリックし、接続確認が取れたらConfigureをクリックして確定させます。

再度My Data Sourcesの表示を見ると、設定したRedshiftが追加されてました。こちらをクリックします。

Source Typeとして、Live tableData extractの2種類用意されています。前者はページにアクセスする度に、data.worldからデータソースへクエリを実行し、data.world自体にはメタデータを保存しないようにするタイプです。後者は逆にメタデータをdata.worldに保存するタイプです。今回はLive tableを選択しました。

スキーマをpublicに選択します。

Live tableの無料版だと3テーブルのみ選択が可能です。適当に3つ選択します。(これらのテーブルは、Redshiftのクラスタ立ち上げ時にロードできるサンプルデータです。)

Importを開始すると、左側のパネルにてロードの進捗を把握できるようになっています。

ロードが完了したので、試しにcategoryの中を見てみます。真ん中に大きく表示されるのはサンプルデータ、右側にメタデータが表示されています。テーブル単位ではOwnerやDescriptionといった情報が付与できます。

Add a descriptionをクリックすると、ポップアップが表示されて編集が可能です。

カラムのinfoマークをクリックすると、ユニーク数や最大・最小・平均といった統計値を確認することができます。

右上のQueryをクリックするとエディタが開かれ、UI上でそのままSQLを実行することができます。

プロジェクト関連で、その他の機能も見ていきます。メニューのHome下にあるProject summaryは、Markdown形式でドキュメントが書ける、いわゆるWiki的な機能です。

Data dictionaryでは、プロジェクトが所持しているカラム情報がリスト形式で並ぶようになっています。

メニュー上のAddをクリックすると、追加できるリソース一覧が並びます。

Insightだけ気になったのでご紹介しますと、こちらはプロジェクトが所持しているリソースを良い感じにまとめて、レポートのようなドキュメントを作成できる機能みたいですね。今はRedshiftのテーブルしかImportしていないので寂しい感じですが、他のサービス、例えばBIやExcelなども貼り付けられれば、かなり便利に使えそう。

さて、今いるページがプロジェクトのワークスペースという画面です。このワークスペースがどういう導線で表示できるかといいますと、まず左のAnalysisをクリックします。

リストで表示されるredshiftをクリック。

このredshiftのAnalysisページのLaunch workspaceをクリックすれば戻れる、という作りになっています。なのでチュートリアルでいきなり作成したプロジェクトという概念は、Analysisというリソースの一部という定義になっているようです。Analysis画面では、先ほどワークスペースで作成していたSummaryやInsightsといったリソースがここに集約されつつ、右のパネルでタグの付与やアクティビティの確認ができるようになっています。

ユーザー同士のコラボレーションの機能は、Discussionタブにてやりとりすることができます。

アクセス権限関連は、Settingsのタブで調節可能です。

Analysisの機能ついては以上です。左のメニューでAnalysisの上にあるDataについても見ていきます。こちらはMy Data Sourcesではなく、Import DataでCSVファイルなどを登録した時に分類されます。自分の環境にはデータセットを登録していませんが、Search all datasetsをクリックして、パブリックデータをブラウジングしてみます。

検索結果画面です。上部のタブや左のチェックボックスで絞り込み、真ん中に検索結果が並ぶといった仕様になっています。Steven Seagal Box Officeをクリックしてみます。

ページの構成的にはAnalysisとほぼ共通しています。ファイルのプレビューや、他のデータセットとの関連付けができるのが良いですね。

以上で大体の機能は網羅できたかなと思います!

所感

data.worldは、ユーザーフレンドリーに設計されたデータカタログという印象を持ちました。付与できるメタデータの種類や、できることが良い意味で限られているので、データ分析に馴染みのない方でもオンボーディングしやすい製品だと思います。データカタログの入門としてオススメですね。

本アドベントカレンダーでは、今話題のデータ関連SaaSを取り上げていきますので、引き続き乞うご期待ください!