いい感じにデータカタログを構築する10のヒント 〜 10 Tips to Build a Successful Data Catalog #alteryx_ug

2018.12.10

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

当エントリは『Alteryx User Group in 東京 Advent Calendar 2018』10日目のエントリです。

昨日9日目の記事は弊社大場 裕喜による『これでライセンス管理もバッチリ!Alteryxライセンスポータルのご紹介』でした。

ご挨拶

10日目の私からは、Alteryxでいい感じにデータカタログの構築をする10のヒントをご紹介します。 この記事は、Alteryx社Solution ConsultantのDavid Matyas氏がAlteryx Communityで公開している記事の抄訳版です。

10 Tips to Build a Successful Data Catalog

多くの方にとってデータカタログと聞いて最初に考えるのは、MDM(Master Data Management)だと思います。 #実は私もそう思ったひとりです。

ところが、Alteryx Connectは、従来のMDM製品とは少し違った視点でデータカタログを提供できる面白いコンセプトの製品です。 そのため、最初のボタンをかけ違えないように製品のコンセプトを理解いただくことが重要だと思い、英語で公開されている記事を日本語でご紹介する考えに至りました。 稚拙な邦訳でわかりにくい箇所もあるかと思いますが、この記事が、みなさんのデータカタログ構築に対する課題解決の参考になれば幸いです。

はじめに

2017年8月、ソーシャルデータの探索と企業向けのデータカタログプラットフォームであるAlteryx Connectをリリースしました。 データカタログとは何でしょうか。また、組織はどのようにデータカタログを構築すればよいでしょうか?

データカタログは、組織全体のユーザが安全かつ管理された環境内で「情報資産(アセット)」を探索・発見できるようにするサービスです。

あるデータソースを必要とするユーザが自分自身で求めている情報を簡単に発見して理解できる仕組みとしてデータカタログを提供することで、組織内に所有している情報資産の価値を最大化することができます。

このブログでは、いい感じにデータカタログを構築するための10のヒントを紹介します。

1. Create the Culture - 文化を創る

Alteryx Connectは、組織に役立つ、わかりやすくてソーシャルなデータカタログを構築するための多くの優れた機能を提供しています。

あるユーザがデータ分析の旅を始めるなら、データカタログがその第一歩となります。 求めているコンテンツを検索して発見し、コンテキストを理解し、コミュニティのフィードバックやユーザ間のやり取りから、そのデータが信頼に足るものかどうかを知ることができます。

ところが実際には、完璧なデータカタログを簡単に構築できるケースは稀で、データガバナンスにおける様々なプロジェクトにおいて、組織が期待するスピード感で導入を実現できなかったソリューションは多くあります。

真の意味でデータカタログを提供するには、テクノロジだけでなく、人やプロセスにも焦点を当て、ユーザの成功を可能にする文化を構築する必要があります。

さて、ソーシャルデータカタログでは、SNSのようにユーザ同士が社会的に関与しあうことを促すのが重要です。 ユーザ同士が知識を分かち合い、共有する文化を構築するにあたっては、ユーザがノウハウを結集して問題を解決するためのさまざまな方法を技術的にサポートする必要があります。 定義を作成し、注釈を付け、データの品質と目的についてスレッドで議論し、リンクを共有する、または、「thumbs up(いいね)」のような単純なソーシャルジェスチャーによって、基礎となる資産の価値を高めることができます。 そして、それによって新しく組織に参画したユーザでも、より簡単に欲しい情報を見つけられる効果を生み出すことができます。

カタログの成功と組織の成功とは表裏一体です。貢献度の高いユーザに報酬を与え、話題になっているアセットを理解し、組織がもつ情報資産を適切にキュレーションし、維持することを保証するユーザの育成を促進します。

2. Stay Focused - 集中する

データカタログ構築プロジェクトに着手した瞬間から、あなたは組織の期待を一身に背負ってベースキャンプに立つことになります。 組織のデータソース、レポート、ワークフロー、用語などのすべてのソーシャルリポジトリを構築するならば、何千もの蓄積された知識が潜んでいる可能性がありますが、これはエベレスト登山ほど難しいです!

だから、高すぎる目標を設定しないでください。

一般的な戦いのセオリーにおいて、目的の選択と維持は戦略の原則です。 「Start small, but think big」、これが最初の戦いに勝ち、大軍を動かすことに繋がります。

実際のシーンを考えてみましょう。 最初にひとつの部門またはプロジェクトを選択します。 人気のある(または重要な)データセットから始めるのがオススメです。 ユーザが詳細を把握できていない情報を単に文書化するだけでも、重要な組織の記憶は、より大きな可視性を得ることになります。 スキルや知識がプロジェクト(または会社)から離れる前に、レポートやデータソースの作成におけるノウハウを文書化します。 12ヵ月後にダッシュボードやレポートの機能、またはデータベーステーブルについて説明できるリソースがいるとは限りませんよ。

一方で、予算とリソースを確保するためにあなたのビジネス戦略を明確にしておくことも必要です。 重要な戦略的プロジェクトに関連する(目に見えない)資産を文書化、共有化し、オープンかつソーシャルなコラボレーションの文化へと変化を推進する手段としてカタログを使用します。

3. Connect to Sources - データソースへの接続

すべて手動で作成するデータカタログを、期待する速度で維持管理し、組織で使えるようにするには、企業にとって大変な労力が必要です。 Alteryx Connectは、ソースシステムのメタデータを自動的にカタログに取り込めるようにすることで、要求されるスピードに応えます。 このようにして取得されたメタデータは、一般的にテクニカルな論理データであり、この最初の段階では、現場のビジネス経験を持つ専門家の要素が欠落していますが、今はこれで問題ありません。 Alteryx Connect Loaderは、この貴重な情報をできるだけ効果的に組織の目につくようにします。 目についた情報に所有者をレポートに割り当てたり、データソースについて記述したり、高品質の資産を認定して、他のユーザが見つけやすくするような詳細情報をブラウザからソーシャルカタログに直接追加することができるのです。

4. Prototype - プロトタイプ

これまでにご紹介したソーシャルデータカタログがあなたの組織にもたらしうるすべての利点を知って、ソフトウェアソリューションの提供方法、ならびに情報資産に対する可視性・ガバナンス・コミュニティ行動を実現する方法を知りたくなったと思います。

Alteryxプラットフォームの他の製品と同様に、PoCを目的としたガイドトライアルを強くお勧めします。

ヒント
前述の「2. Stay Focused - 集中する」と同様に、他のユーザやビジネス関係者に紹介できる環境で、ソーシャルデータカタログが必要な機能をどのように提供するかをプロトタイプ化するために、主要プロジェクトまたは主要データソースを選択して、Alteryx Connectを実装しましょう。

5. Timeliness - 情報の鮮度

古いニュースしか載っていないサイトを訪れる人はいますか? Instagramに昨シーズンのファッションを公開する人はいますか? 期限切れの資産と情報しか格納されていないデータカタログは誰にも信頼されません。

採用を確実にするためには、ソーシャルデータカタログの情報が常に最新のものであることが重要です。 適時性なしでは、カタログはすぐにユーザからの信頼と信頼を失い、プロジェクトは跡形もなく沈んでしまうことでしょう。 結局のところ、多くのIT部門には、おそらくこれらの「幽霊船」アプリケーション(Wiki、SharePoint、恐怖のExcelデータ辞書!)を所有しており、今も組織のどこかを漂っているのです。

定期的なスケジュールで、Connect Loaderはデータプラットフォーム、分析ツール、アプリケーションなどから情報とリンケージを取得します。 更新されたカタログは、ユーザが直ちに利用できるようになり、強力なバージョン管理機能により発生した変更を確実に確認できます。

「Loader」という用語について解説しましょう。 これはAlteryx Serverに公開され、データソースにアクセスするよう設定された視覚的なAlteryxワークフローです。 最も貴重なシステムとデータストアに保持されている組織の記憶を民主化するために設計された分析アプリです。

Loaderを定期的に実行するだけでなく、Connectのソーシャルおよびコラボレーション機能を使用して、今後の変更点についてユーザに知らせることができます。 データの変更管理を常に最新の状態にすることで、ユーザはデータカタログを信頼し続けてくれます。

6. Glossary - (ビジネスユーザのための)用語集

ビジネス用語集はソーシャルデータカタログ戦略の重要な要素のひとつであり、Alteryx Connectではすぐに使える状態(out-of-the-box)で提供されています。

用語集には、定義、概念、主題など、多くの形があります。 一元化された場所で組織固有の言語を取得し、その意味をカタログそのもののさまざまなコンテンツと結び付けます。

用語を定義するだけでなく、これらの用語がレポート、データベース、その他の定義にどのように適用されるかを知ることができます。 「customer churn(顧客の解約状況)」、「net revenue(純収入)」、「ROE(Return of Equity/自己資本利益率)」に関する難解な会話は必要ありません。 その代わりに、「Return on Equity」の認定された定義を表示し、この用語が情報資産に適用される場所をインタラクティブにブラウズすることができます。

他のアドバイスでもお話ししたように「start small and think big」を意識するようにしてください。 ビジネスに理解があり、他部門とのコミュニケーションを取ることが多いビジネスアナリストに少し時間を割いてもらい、彼らがどのようにビジネスに関する記述をしているのかを理解しましょう。 そして、うまく組織の文化や言語を捉えることができたら、その勢いのまま、CDO(Chief Data Officer)や経営層を通じて、それらの定義を認定します。 Alteryx Connectを使用すると、Excelなどの書式化されたデータからビジネス用語集を簡単にインポートすることができます。

Don't start from the scratch. 1から作らないでください。

Don't reinvent the wheel. 車輪を再発明しないでください。 ※「広く受け入れられ確立されている技術や解決法を知らずに(または意図的に無視して)、同様のものを再び一から作ること」の意。(Wikipedia

まず、あなたがすでに持っているものをインポートし、それを「見える化」することを考えてください。

7. Annotate - 注釈

ソーシャルデータカタログは、ユーザがその情報の中で価値のあるものを見つけているかどうかにかかっています。

冷静で格式張った定義と自動化されたテクニカルなメタデータは、非常にドライなユーザーエクスペリエンスを実現します。 もし、Facebook(毎日13億3700万人のアクティブユーザ、ユーザごとに13.8回アクセス/日)やLinkedIn(月間アクティブユーザ10,600万人、ユーザの40%が毎月サイトにアクセス)のようなソーシャルサイトが機械的にスクラップされて記述された情報だけで構成されており、個人のパーソナリティや知見を輝かせる場でなかったならば、誰もアクセスしないでしょう。

同様に、中央集権的なトップダウンアプローチで構築されたデータカタログも失敗に終わります。 完全に統制されたITプロジェクトのようにユーザにカタログを課したところで、そのカタログに対する取り組みが盛り上がることはありません。

このアプローチを裏返して、ボトムアップ、分散した群衆の盛り上がりを利用することで、全く違う景色を見ることができるはずです。

データソース、データセット、レポート、その他のタイプの情報資産について100%の理解を持つBIチームやITチームがあったとしても、それは組織にとって全てではなく、ビジネスチーム、アナリスト、ナレッジワーカー、分析グループなど、現場スタッフの頭の中にも間違いなく「ノウハウ」があります。 そのような頭の中にあるノウハウを組織内で広め、活用することが重要です。

ソーシャルカタログで成功するには、組織の重要な情報資産に対するキュレーション、メンテナンス、およびライフサイクルの管理を含め、Alteryx Connectにロードされたあらゆるデータに注釈を付ける権限をユーザにも渡して、データの民主化を進めることです。

8. Let the Users In - ユーザを巻き込む

いい感じにデータカタログを構築するには、「門番」ではなく「店主」であるべきです。 (私たち)店主はユーザが定期的にカタログを見に来て、そこから価値あるものを見つけ、価値ある情報資産を評価し、ユーザの頭の中にあるちょっとしたノウハウを組織に共有してもらう必要があります。

Alteryx Connectでは、サインアップの手続きから複雑さを排除するために、特定のメールドメイン(例:@ alteryx.com)を「ホワイトリスト」に設定することができます。

また、すでにSAMLやActive Directoryなどの企業規模の認証システムを使用している組織であれば、Alteryx Connectはこれらの認証システムと連携して、ユーザの既存の役割と資格情報に基づいてアクセスを識別し、シングルサインオンを実現することができます。

データカタログのエンゲージメントを向上させるためのベストプラクティスは、すべてのアセットがデフォルトでオープンで透過的であることです。 これにより、ユーザは自分が探しているものを見つけやすくなり、さらに価値のある質問をすることができます。 この可視性がなければ、ユーザはカタログの精度に疑問を持ち、エンゲージメントを失うことになります。

Alteryx Connectは実際のデータではなく、誰(WHO)の、何(WHAT)の、どこ(WHERE)のデータなのか、というメタデータに特化してアクセス可能にしていることを覚えておいてください。 ユーザは情報資産がどのように接続され、関連付いており、誰が使っているのかを把握することで、様々な気付きを得て、より良い決定を下すことができます。

もちろん、カタログ内でアクセス許可と可視性ルールを設定して、情報資産を特定のユーザグループに制限することもできますが、このアプローチは組織の最も機密性の高い資産だけに限定して使用するべきです。 その場合、CDO(Chief Data Officer)は、これらの重要なケースについて戦略を錬るようにしてください。

9. Extend the Reach - "Bring your own metadata" - 守備範囲を広げる

Connect Loaderは、主要なデータおよび分析プラットフォームにすぐに接続できるので、さまざまなデータソースの情報資産をカタログで利用し、定期的に更新することができます。 そして、より多くのLoaderがシステムに追加されるにつれて、コネクティビティの幅と深さは増していきます。

さらに、Connect Software Development Kit(SDK)を使用することで、任意のデータソースから「Bring your own metadata(独自のメタデータを持ち出す)」ことも可能です。 SDKツールはAlteryx Designerから利用できます。

Alteryx Connectは、SDKを使用して任意のサードパーティ製ソフトウェアのメタデータを取り込み、組織内で使用されているデータソースの幅広さを発見し、データカタログに比類のない完全なビジョンを提供することができるのです。

10. Ownership & WHAT-WHO-WHERE rule - 所有権と「WHAT-WHO-WHERE」ルール

優れたデータカタログは、組織にとって重要なすべての情報資産を誰(WHO)が、何(WHAT)を、どこ(WHERE)に置くかを示します。

WHO:資産の所有者または信頼できるスチュワードを把握すること。これはあなたが求めている答えを導くことのできる個人を示します。

多くの場合、これは資産の作成者、レポート作成者またはワークフローの所有者です。 あるいは、特定のビジネス分野や技術に関する認知度の高い専門家かもしれません。 データコミュニティが成長する中で、質問があったときに誰が助けてくれるのか、また新しい要件や新たに参画したメンバーの理解を促進するために、データカタログにコンタクト情報を保持することが重要です。

エンゲージメントを構築するベストプラクティスは、Connectプラットフォーム内で直接コラボレーションすることです。 電子メールやインスタントメッセージに分散するのではなく、ソーシャルコメンタリースレッド、注釈、サブスクリプションを使用して、アクティビティとチームのノウハウを単一の場所で追跡できるようにします。

Be open. Be transparent. Be connected.

WHAT:ビジネス用語、レポート機能、データセットの基本目的など、資産の基本的な説明を提供することから始めてください。 さらに多くの情報は後で追加することができるので、最初の編集で100%の詳細を目指すのではなく、できることから始めましょう。 カタログの作成は、継続的に繰り返すことが重要な共同作業プロセスです。

WHERE:データカタログは、組織全体での情報の目的、意味、および流れについてユーザに多くの情報を伝えることができますが、より効果的に機能させるためには、元となった資産のある場所を知ることが不可欠です。

ユーザがAlteryx Analytic AppやBI製品のダッシュボードを起動したいと思った時、Connect Loaderによって自動的に作成されたリンクまたはファイルの場所、あるいは、カタログ内で他のユーザが直接編集した注釈を検索します。 その時、その資産を見分けることができ、説明が適切なものであり、他のユーザによって承認されたものであれば、データカタログがユーザをそのコンテンツに直接誘導するだけで、「分析の第一歩」となる旅を完了できることを目指しているのです。

Alteryx Connectの詳細については、AlteryxのWebサイトならびに弊社Webサイトなどをご覧ください。

最後に

明日2018年12月11日の11本目は、truestarたまるさんによる「Alteryxユーザのあるある解消法」の予定です。お楽しみに!!

Alteryxの導入なら、クラスメソッドにおまかせください

日本初のAlteryxビジネスパートナーであるクラスメソッドが、Alteryxの導入から活用方法までサポートします。14日間の無料トライアルも実施中ですので、お気軽にご相談ください。

alteryx_960x400