本気で目指すGoogle Cloudを使ったデータの民主化 #devio2022

モダンデータスタック(MDS)

兼本侑始

2022.08.09

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

2022年7月19日〜29日に開催された技術カンファレンス「DevelopersIO 2022」にはたくさんの方にご参加いただきました。ありがとうございます。

だが、俺たちの夏はまだ終わらない！ということでビデオセッションのレポートです。
本エントリでは、Google Cloud梅川氏による「本気で目指すGoogle Cloudを使ったデータの民主化」についてご紹介いたします。

なお、DevelopersIO 2022イベントの全セッションはこちらからご覧いただけます。ライブ以外にも様々なビデオセッションがありますので、ぜひチェックしてください。

概要

Google Cloudは大規模なデータ分析を行うプラットフォームと様々な可視化(BI)ツールを提供しています。Lookerやコネクテッドシート、BigQueryを利用するとなぜデータが民主化出来るのかをご紹介します。

登壇者

グーグル・クラウド・ジャパン合同会社
パートナーエンジニア
データアナリティクススペシャリスト
梅川真人

セッション動画（2022/08/15までの限定公開）

データ民主化の現状と課題

多くの企業がDXに全く取り組んでいないか限定的な取り組みに終わっています
近年の急激な環境の変化によって、DXの取り組み有無だけでなく対応のスピードも重要です
データ民主化に向けた課題
- 部門ごとにデータ取得や計算手法が異なるので、指標や定義がバラバラでデータが信用できない
- セキュリティの観点からタイムリーなデータ共有ができない、公開範囲が限定的になってしまうなど効果が限定的
- 人材・スキル不足が原因でデータ活用までのリードタイムが長くなり、関係者のモチベーションが上げにくい
データ民主化を実現する方法（Looker視点）
- 共通言語化...取得元や計算方法も含め指標、定義を共通言語化することで関係者間の認識の相違を排除
- 適切な公開範囲...機密度や必要な情報レベルに合わせたタイムリーでセキュアなデータを提供することでデータから得られる価値を最大化する
- わかりやすいキュレーション...データを1カ所にまとめることで、調べ、見つけ、使うという流れをスムーズに実現する

Lookerはデータプラットフォーム

Lookerは各種データベースに蓄積されたデータを可視化し、他のデジタルツールへのアクションに繋げる、あるいはデータを商品として考え外部に提供することで新たな価値を見出すことができる「データプラットフォーム」として設計されています
BIツールはデータプラットフォームとして提供している機能の一部です

LookMLによるデータの共通言語化

Lookerでは、LookMLというYAMLベースの言語を使用してデータの定義を一元化できます

SQLを抽象化しLookerに情報を提供するデータベースとユーザの間にモデルレイヤを作成するもの
Gitで構成管理できるので、チーム開発する際に承認フローを挟んで、データの定義が氾濫することを排除できます

LookMLの再利用可能な定義情報には、ViewファイルとModelファイルの2つがあります - Viewファイル…Lookerで取り扱う論理的なテーブル定義 - Modelファイル…テーブル間の結合ロジック

LookMLを使うことで「誰もが同じ場所、同じ手法、同じ定義でデータを取り出せる環境を提供し、データを共有言語化」することを支援します

柔軟な公開設定

集約したデータの機密性やセキュリティポリシーの観点からデータ連携や利活用が一部に制限されるユースケースがあります - 人事情報を活用したいが個人評価などは開示できない - 担当エリアのデータだけを開示したい - 外部公開したいがお客様ごとに作成するのが大変

Lookerでは3つのアクセス制御レベルを用意しており、LookMLとユーザの設定情報を組み合わせることで制御可能です - 行レベルフィルタ…ユーザの所属部署やエリアなどに合わせてレコード単位でフィルタを操作することで、データを探す手間と管理者がマートを分割する手間を削減 - 列レベルフィルタ…気密度の異なるデータやアクセス権を正しく設定することで、閲覧可能カラムを制御し、公開できるデータの種類を増やして利活用の幅を拡大 - 属性に合わせた取得元の変更…同じレポートにアクセスしてもユーザの属性に基づいて取得可能なデータを制限することで、外部公開を実現