[レポート]アナリティクスとガバナンスの新機能を探る #AWSreInvent
こんにちは、AWS re:Invent 2024参加中のデータ事業本部の渡部です。
今回は3日目のBreakoutSessionである【ANT303 | アナリティクスとガバナンスの新機能を探る】のセッションレポートをまとめます。
5k runを朝走ってきたこともあり、有意義な一日が過ごせております!
なぜ参加したのか
2024年のデータアナリティクス系のアップデートをおさらいしたかったためです。
2024年も小さいものから大きいものまで、様々なアップデートがありました。
それらを振り返ることで、今一度お客様に何か持って行けるようなサービス・機能がないかを確認したかった次第です。
(なお私のセッション説明を見る力がなかったのか、DataZoneのアップデートのおさらいが主でした。まあしかしQAも非常に面白かったので、参加して良かったです)
セッション概要
概要
Amazon DataZoneの最新アップデートの紹介と、DataZoneを使用した事例を2社(Cisco、The Weather Company)からの発表という構成でした。
また先日発表になったAmazon SageMaker Unified Studioのデモもあり、DataZoneが統合されたあとのデータカタログやリネージ・サブスクリプション依頼がこれまた新サービスのAmazon SageMaker Lakehouseと同じ画面で表示されている様子が確認できました。
データのクエリからDataZoneのカタログ・リネージなどが全部一画面になるのはわかりやすいなと思いました。データ利活用がよりやりやすくなるのではないでしょうか。
以下はセッション説明です。
Join this session to explore the latest data governance innovations and features in AWS analytics. Our experts guide you through the latest innovations in Amazon DataZone, AWS Lake Formation, and AWS Glue that are helping organizations establish robust data governance frameworks and maintain compliance standards.
このセッションでは、AWSアナリティクスにおけるデータガバナンスの最新のイノベーションと機能について探ります。Amazon DataZone、AWS Lake Formation、AWS Glueの最新のイノベーションについて、エキスパートが解説します。これらは、組織が堅牢なデータガバナンスフレームワークを確立し、コンプライアンス基準を維持するのに役立っています。
スピーカー
- Shikha Verma, Head of Product, AWS
- Shaja Selvamani, Sr. Director Data Science, Cisco Systems
- Travis Smith, Chief Architect, VP of Data & AI, Distinguished Engineer, The Weather Company
セッション内容
冒頭、顧客はデータドリブン経営に投資をしているが、多くが成功していないという、古今東西よく言われる話から始まりました。
DataZoneの新機能についてまとめられています。
特に私が面白いなと思ったのは、Data qualityです。
Data Qualityについては、InformaticaやTalendに代表されるサードパーティ製のデータ品質メトリクスをDataZoneにAPIで統合することができるそうです。
この話は知らなかったのですが、以下がドキュメントにあたりそうです。
別途DataZoneのAPIに合うようにサードパーティーツールからのAPIのレスポンスは整形する必要がありますが、これまで別ツールでデータ品質を測定していた場合は、そのメトリクスをDataZoneに統合できるようになります。
ここからは新しく発表されたAmazon SageMaker Unified Studioのスライドです。
生成AI、機械学習、データアナリティクス、データカタログの画面が一つに統合されていることがわかります。
画質が悪いのですが、DataZoneのビジネスメタデータが先ほどの画面から繊維して閲覧可能です。
データがどこからどこへ流れていっているのか、データリネージも把握できます。
相変わらずUnified Studioの画面です。
ビジネスユニットへのデータ共有の様子が映されています。
以上が新たなサービス、Unified Studioのデモでした。
ここからはCisco社の発表に切り替わりました。
データが各所に散らばるデータサイロ、データの場所がわからないという課題を、DataZoneを使用したデータメッシュによって解決に向かっていったという話でした。
構成としては、
中央にデータガバナンス用のアカウントがあり、左側にデータを提供するプロデューサーアカウント、右側にデータを消費するコンシューマーアカウントという形です。
誰がデータの所有者なのか?ということを明確に定義し、所有者が責任を持ってデータを管理。そしてデータ検索しやすくするデータカタログやアクセス権を中央のDataZoneが担うことでデータ消費の効率化・セキュリティの一元化が可能となったとのことです。
特にこの構成をとることで、データをプロダクトとして扱う考え方が浸透したという話は、環境が思考を変えた、というような話で面白いと思いました。
続いてはThe Wheather Company社の発表です。
膨大な量の気象データを扱い、日々予報を出している会社です。
背景に文字が写っていますが、DataZoneがゲームチェンジだったとのことです。
こちらもCisco社と同じような課題を抱えています。
DataZoneのユースケースが各担当別に示されています。
構成図です。
導入効果が示されています。
中央集権でデータセキュリティ監視の実現ができるようになったことや、データ共有の際のプライバシーレビューの効率化、データが発見しやすくなったことによる製品決定の迅速化という効果があったという話です。
まだDataZoneの全社展開はしていないようで、今後少しずつ展開をしていきたいという話で、やはりDataZoneの導入はまず結果が出しやすい部分に入れてみて徐々に広げていくというのがいいんだなと改めて認識をしました。
QA
QAが面白かったので、以下抜粋します。
-
質問:AWSではないデータソースのデータとサブスクリプションの管理方法について
-
回答:
- データを発見することはGlueでクロールすることで比較的容易だ
- Snowflake、Databricksなどのパートナーと連携を進めている
- 現状サブスクリプションの管理方法についてはカスタムワークフローをLambdaやServiceNowで構築することが考えられる
-
質問:サードパーティツールからのデータアクセス管理方法
-
回答:
- JDBCを使用するツールならば、DataZoneはJDBCのアクセス権限管理に対応しているのでアクセス管理が可能
- 例としてはTableau
こちらの質問については、以下の動画で解説されていますね。
JDBC URLが払い出されるのでプロキシのような形で、データマスクやアクセス制限が可能です。
以上です!レポートでした。