[レポート]データの民主化:ガバナンスとアナリティクスの交差点(sponsored by Informatica)#reinvent #PRT244

2023.01.05

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

データアナリティクス事業本部の鈴木です。

AWS re:Invent 2022の、セッション番号PRT244の『Democratize data: The intersection of governance and analytics (sponsored by Informatica)』を聴講したのでレポートです。

セッションについて

登壇者

  • Gopinath Sankaran, Vice President, Strategic Cloud Ecosystems, Informatica Inc
  • Ian Stahl, Sr. Dir. Prod Mgmt, Informatica

Session level

200 - Intermediate

Session type

Breakout Session

動画

セッション概要

効果的なデータガバナンスはデータの民主化には不可欠です。また、確かなデータガバナンスの基礎の上に構築されたWell-Architectedなデータおよびデータ基盤は、データの民主化の礎となります。どのようにして、InformaticaのデータガバナンスがAWS向けに、データメッシュやデータファブリックといったモダンなアーキテクチャを構築し、AWS・マルチクラウド・ハイブリッドなどさまざまなクラウド導入モデルにおいて、データを発見・管理・統治するか学びます。また、Informatica、AWS Data ExchangeそしてAWS Lake Formationを利用して、企業がどのようにイノベーションを起こすことができるかを紹介します。AWS上でのスムーズなクラウドデータ管理により、事業全体のデータを民主化し、組織内のイノベーションを促進する方法を学びます。なお、このセッションは、AWSパートナーであるインフォマティカが提供します。

セッション動画ではプレゼンテーションとデータガバナンスに関するソリューションのデモンストレーション部分を視聴できました。プレゼンテーションでは、Informaticaでは、データガバナンスを制限的なものではなく、正しいガードレールとして機能させ、データ所有者が快適で、正しいアクセスを提供し、分析担当者が必要な分析を行えるようにするものという捉え方をしていて、どのように提供しているのかお話頂きました。デモではCloud Data MarketplaceとAWS Data Exchangeの統合や、Informaticaのデータガバナンス機能の内容を学ぶことができました。

発表概要

プレゼンテーション

まずはじめに、Informaticaのデータガバナンスへの考え方やAWSとの関係性の紹介、AWSに関する新機能の紹介を頂きました。

そしてデータの民主化についての紹介ですが、分析モデルやレポートを作成するために使用しているデータの信頼性と信用性に自信を持っているわずか30%の人たちとそうでない人たちの間の差に対処することだとお話し頂きました。

データ駆動のジレンマ

Informaticaでは以下の「5つの質問」を常に考えているそうです。

  • どのようなデータがあるのか(データカタログなどを利用してデータが発見できるのか)
  • データは良いものなのか(分析に必要な品質を備えているのか、客観的なスコアリングができるのか)
  • データを手に入れられるのか(アクセスポリシーが利用者から分かるようになっているのか)
  • データを使うべきなのか(組織のポリシーやプライバシー保護の責任と整合性のある方法で使用できる状態なのか)
  • データをどのように入手すればよいのか(クエリがかけられるのかなど、どのようにしてアクセスできるのか)

データ分析基盤登に場するペルソナ

多くのデータレイクチームは、データへのアクセスを実際に管理し、組織内のさまざまなデータ消費者に特注のアクセスを提供することに多くの時間とコストをかけており、データガバナンスの欠如が、データの流れの上流にいる希少な専門家やデータエンジニアへ負担に繋ながっていることを指摘されました。ガバナンスを導入することで、このような負担を軽減し、データ利用者もより簡単にデータを見つけ、信頼性の高い方法でアクセスできます。これを実現するためにデータレイクの上に配置を検討すべき重要な機能が用意されていますが、InformaticaではCLAIREにより支援されていることを紹介されました。

成功するデータガバナンスのキー

これらの機能はIntelligent Data Management Cloud(IDMC)ひとつで利用できます。

IDMC

この中でも、特にデータの民主化に非常に密接に関係している、3つの機能に焦点を当てて紹介します。

データの民主化に密に関わる3機能

Cloud Data Marketplace

レイクに保存されたすぐに使える精選されたデータを、利用者が見つけるためのワンストップショップのようなものです。ボタンを押すだけでデータを要求し、アクセスすることができます。さらに、データ生産者と消費者をつなぎ、協力して企業が必要とするデータを入手できます。例えばチャット用のチャンネルがあり、「こんなことができるようにしてほしい」「このデータのこんなバリエーションはないだろうか」と、気軽に声をかけることができます。また、AWS Data Exchangeと連携したので、自社のデータとサードパーティデータを、同じデータプロダクトにまとめることができます。

Cloud Data Governanvce and Catalog

技術的なステークホルダーと事業部門のメンバーの両方が協力して、メタデータが正しくタグ付けされているか、適切な品質管理がなされているか、適切なポリシー管理がなされているかを確認できる環境です。データ製品を作成する人とデータ製品を利用する人の両方が、共通のビジネス言語をベースとしたセマンティクスで、簡単にデータにアクセスできるようにします。

Cloud Data Quality

ガバナンスチームが上流で設定したルールに基づいて、データのプロファイリングとスコアリングのプロセスの多くを自動化します。CLAIREは、すべてのデータの分類を自動的に行い、重要な要素を発見し、プロファイルを作成し、ルールベースの結果を実行し、スコアカードを作成します。スコアカードは商品の裏面に記載されている栄養成分のようなもので、「このデータ製品には重要なデータ要素が含まれており、適合性スコアや妥当性スコアがある」ということを定量的に把握でき、ユーザーに対して効果的に提示されます。

IDMCを利用したデータレイクの構成例もご紹介頂きました。

AWSでのデータレイクの構築例

デモンストレーション

データガバナンス

まず、Cloud Data Governamce and Catalogについてで、トップページからです。ダッシュボードはカスタマイズ可能です。

CLAIREから149個のビジネス用語の関連性が推薦されており、ガバナンス管理者が承認または拒否する必要があります。

Data Governamce and Catalog

例えば「CC番号」はビジネス用語だと「クレジットカード番号」です。承認・拒否を行うことができるほか、手動で上書きすることも可能です。

関連性の推薦例

どのテーブルがCCPAのような情報プライバシーのポリシーに関連しているか確認することも可能です。

ポリシーとの関連

データカタログ

こちらもCloud Data Governamce and Catalogですが、特にデータカタログ機能についてのデモです。

例えばレポート作成者からProducts and Pointsというデータに異常があって急にレポートが作れなくなった連絡を受けた場合の対処例について紹介頂きました。

例えばデータカタログでProducts and Pointsを検索して開くと、Products and Pointsの詳細情報を知ることができます。

データカタログの検索

データの詳細

特にLinageからこのデータのリネージを知ることができますが、

リネージの情報

スコアを使うことで、どの段階でデータに異常があったのか簡単に確認することができます。

異常の確認

マーケットプレイス

続いて、Cloud Data Marketplaceの紹介でした。マーケットプレイスを利用したい別のユーザーのアカウントから、Cloud Data Marketplaceにアクセスしてみます。

マーケットプレイス

検索窓から、欲しいデータを検索することができます。結果は2件で、片方は自社のデータ、もう片方はサードパーティのデータです。

データの検索

サードパーティのデータは、AWS Data Exchangeで公開されているものであることが分かります。

データの詳細

自社データの方の購読をリクエストしてみます。リクエストが承認されれば、データを利用することができます。

データの注文

リクエストされた側からは、同様の画面から承認・拒否をする様子が確認できました。また、チャット機能を利用して、お互いに補足や意見交換などを行うことができ、より適切にデータの運用ができそうです。

データ利用の承認とコメント

最後に

今回はre:Invent2022で行われた『Democratize data: The intersection of governance and analytics (sponsored by Informatica)』のレポートでした。

Cloud Data Governamce and Catalogでは、Linage機能ではスコアを元にどこでデータに異常が起こっているのか確認でき、発生した事象の確認がとても簡単かつスムーズにできそうなのでとてもよいなと思いました。また、ビジネス用語の関連をCLAIREが推薦してくれるので、人間が作業する手間が大幅に削減されそうです。

Cloud Data Marketplaceでは、自社内で簡単にデータの購読リクエストができるのに加え、チャット機能でお互いに情報交換ができるのがとても良く、データガバナンスを制限的なものではなく快適なデータ利用のために行うという考え方がよく理解できました。

Intelligent Data Management Cloudや、Informaticaを利用したデータガバナンスに関心がある方は、ぜひ動画を視聴頂ければと思います。