[レポート]データの民主化:ガバナンスとアナリティクスの交差点(sponsored by Informatica)#reinvent #PRT244
データアナリティクス事業本部の鈴木です。
AWS re:Invent 2022の、セッション番号PRT244の『Democratize data: The intersection of governance and analytics (sponsored by Informatica)』を聴講したのでレポートです。
セッションについて
登壇者
- Gopinath Sankaran, Vice President, Strategic Cloud Ecosystems, Informatica Inc
- Ian Stahl, Sr. Dir. Prod Mgmt, Informatica
Session level
200 - Intermediate
Session type
Breakout Session
動画
セッション概要
効果的なデータガバナンスはデータの民主化には不可欠です。また、確かなデータガバナンスの基礎の上に構築されたWell-Architectedなデータおよびデータ基盤は、データの民主化の礎となります。どのようにして、InformaticaのデータガバナンスがAWS向けに、データメッシュやデータファブリックといったモダンなアーキテクチャを構築し、AWS・マルチクラウド・ハイブリッドなどさまざまなクラウド導入モデルにおいて、データを発見・管理・統治するか学びます。また、Informatica、AWS Data ExchangeそしてAWS Lake Formationを利用して、企業がどのようにイノベーションを起こすことができるかを紹介します。AWS上でのスムーズなクラウドデータ管理により、事業全体のデータを民主化し、組織内のイノベーションを促進する方法を学びます。なお、このセッションは、AWSパートナーであるインフォマティカが提供します。
セッション動画ではプレゼンテーションとデータガバナンスに関するソリューションのデモンストレーション部分を視聴できました。プレゼンテーションでは、Informaticaでは、データガバナンスを制限的なものではなく、正しいガードレールとして機能させ、データ所有者が快適で、正しいアクセスを提供し、分析担当者が必要な分析を行えるようにするものという捉え方をしていて、どのように提供しているのかお話頂きました。デモではCloud Data MarketplaceとAWS Data Exchangeの統合や、Informaticaのデータガバナンス機能の内容を学ぶことができました。
発表概要
プレゼンテーション
まずはじめに、Informaticaのデータガバナンスへの考え方やAWSとの関係性の紹介、AWSに関する新機能の紹介を頂きました。
そしてデータの民主化についての紹介ですが、分析モデルやレポートを作成するために使用しているデータの信頼性と信用性に自信を持っているわずか30%の人たちとそうでない人たちの間の差に対処することだとお話し頂きました。
Informaticaでは以下の「5つの質問」を常に考えているそうです。
- どのようなデータがあるのか(データカタログなどを利用してデータが発見できるのか)
- データは良いものなのか(分析に必要な品質を備えているのか、客観的なスコアリングができるのか)
- データを手に入れられるのか(アクセスポリシーが利用者から分かるようになっているのか)
- データを使うべきなのか(組織のポリシーやプライバシー保護の責任と整合性のある方法で使用できる状態なのか)
- データをどのように入手すればよいのか(クエリがかけられるのかなど、どのようにしてアクセスできるのか)
多くのデータレイクチームは、データへのアクセスを実際に管理し、組織内のさまざまなデータ消費者に特注のアクセスを提供することに多くの時間とコストをかけており、データガバナンスの欠如が、データの流れの上流にいる希少な専門家やデータエンジニアへ負担に繋ながっていることを指摘されました。ガバナンスを導入することで、このような負担を軽減し、データ利用者もより簡単にデータを見つけ、信頼性の高い方法でアクセスできます。これを実現するためにデータレイクの上に配置を検討すべき重要な機能が用意されていますが、InformaticaではCLAIREにより支援されていることを紹介されました。
これらの機能はIntelligent Data Management Cloud(IDMC)ひとつで利用できます。
この中でも、特にデータの民主化に非常に密接に関係している、3つの機能に焦点を当てて紹介します。
Cloud Data Marketplace
レイクに保存されたすぐに使える精選されたデータを、利用者が見つけるためのワンストップショップのようなものです。ボタンを押すだけでデータを要求し、アクセスすることができます。さらに、データ生産者と消費者をつなぎ、協力して企業が必要とするデータを入手できます。例えばチャット用のチャンネルがあり、「こんなことができるようにしてほしい」「このデータのこんなバリエーションはないだろうか」と、気軽に声をかけることができます。また、AWS Data Exchangeと連携したので、自社のデータとサードパーティデータを、同じデータプロダクトにまとめることができます。
Cloud Data Governanvce and Catalog
技術的なステークホルダーと事業部門のメンバーの両方が協力して、メタデータが正しくタグ付けされているか、適切な品質管理がなされているか、適切なポリシー管理がなされているかを確認できる環境です。データ製品を作成する人とデータ製品を利用する人の両方が、共通のビジネス言語をベースとしたセマンティクスで、簡単にデータにアクセスできるようにします。
Cloud Data Quality
ガバナンスチームが上流で設定したルールに基づいて、データのプロファイリングとスコアリングのプロセスの多くを自動化します。CLAIREは、すべてのデータの分類を自動的に行い、重要な要素を発見し、プロファイルを作成し、ルールベースの結果を実行し、スコアカードを作成します。スコアカードは商品の裏面に記載されている栄養成分のようなもので、「このデータ製品には重要なデータ要素が含まれており、適合性スコアや妥当性スコアがある」ということを定量的に把握でき、ユーザーに対して効果的に提示されます。
IDMCを利用したデータレイクの構成例もご紹介頂きました。
デモンストレーション
データガバナンス
まず、Cloud Data Governamce and Catalogについてで、トップページからです。ダッシュボードはカスタマイズ可能です。
CLAIREから149個のビジネス用語の関連性が推薦されており、ガバナンス管理者が承認または拒否する必要があります。
例えば「CC番号」はビジネス用語だと「クレジットカード番号」です。承認・拒否を行うことができるほか、手動で上書きすることも可能です。
どのテーブルがCCPAのような情報プライバシーのポリシーに関連しているか確認することも可能です。
データカタログ
こちらもCloud Data Governamce and Catalogですが、特にデータカタログ機能についてのデモです。
例えばレポート作成者からProducts and Points
というデータに異常があって急にレポートが作れなくなった連絡を受けた場合の対処例について紹介頂きました。
例えばデータカタログでProducts and Points
を検索して開くと、Products and Points
の詳細情報を知ることができます。
特にLinage
からこのデータのリネージを知ることができますが、
スコアを使うことで、どの段階でデータに異常があったのか簡単に確認することができます。
マーケットプレイス
続いて、Cloud Data Marketplaceの紹介でした。マーケットプレイスを利用したい別のユーザーのアカウントから、Cloud Data Marketplaceにアクセスしてみます。
検索窓から、欲しいデータを検索することができます。結果は2件で、片方は自社のデータ、もう片方はサードパーティのデータです。
サードパーティのデータは、AWS Data Exchangeで公開されているものであることが分かります。
自社データの方の購読をリクエストしてみます。リクエストが承認されれば、データを利用することができます。
リクエストされた側からは、同様の画面から承認・拒否をする様子が確認できました。また、チャット機能を利用して、お互いに補足や意見交換などを行うことができ、より適切にデータの運用ができそうです。
最後に
今回はre:Invent2022で行われた『Democratize data: The intersection of governance and analytics (sponsored by Informatica)』のレポートでした。
Cloud Data Governamce and Catalogでは、Linage機能ではスコアを元にどこでデータに異常が起こっているのか確認でき、発生した事象の確認がとても簡単かつスムーズにできそうなのでとてもよいなと思いました。また、ビジネス用語の関連をCLAIREが推薦してくれるので、人間が作業する手間が大幅に削減されそうです。
Cloud Data Marketplaceでは、自社内で簡単にデータの購読リクエストができるのに加え、チャット機能でお互いに情報交換ができるのがとても良く、データガバナンスを制限的なものではなく快適なデータ利用のために行うという考え方がよく理解できました。
Intelligent Data Management Cloudや、Informaticaを利用したデータガバナンスに関心がある方は、ぜひ動画を視聴頂ければと思います。