「クラウド時代のデータ活用基盤!最新動向と応用を徹底解説」でModern Data Stack界隈で注目されている4つの分野について話しました

2023.10.12

さがらです。

2023年10月12日に、クラウド時代のデータ活用基盤!最新動向と応用を徹底解説というウェビナーを開催しました。

このイベントの中で、Modern Data Stack界隈で注目されている4つの分野について話しましたので、その登壇内容についてまとめます。

登壇内容

概要

Modern Data Stackは非常に多くの分野・サービスがありますが、私が日々MDSの情報をウォッチしている中で特に注目されていると感じるのは下記4つの分野です。

  • Reverse ETL
  • Data Application
  • Generative AI
  • Semantic Layer

これら4つの分野について概要と実際の事例を資料にまとめ、登壇させて頂きました。

登壇資料

参考URL

質疑応答

Q:Semantic Layerで持つのと、データマートやビューなどの形式で保持するのと、どのような違いがありますか。

私の主観も含みますが、「運用」の面での効果が一番大きいと思っています。

DWH上のデータマートのテーブルなどで指標を管理しようとすると、指標を管理する大量のデータマートのテーブルが発生したり、自社開発のアプリケーションから指標を参照するときに参照方法に制約があって開発しているアプリのコード上で指標の集計方法を記述しないといけず指標の管理とガバナンスに問題が出てくる、ということがあると思います。

こういったときにSemantic Layerがあれば、仮想的なデータモデル上で指標を管理するため大量のデータマートのテーブルは発生しませんし、仮想的なデータモデルのためクエリ負荷が心配されるかもしれませんが選択された指標に応じて最低限のカラム選択と結合処理を行うようになっています。また、開発しているアプリのコード上で集計方法を定義することなく、Semantic Layerで集計方法を定義するため指標の管理が楽になるだけでなく、社内向けのBIツールからの参照も楽になるため、どのツールからでも同じ定義の指標を参照することができるようになります。

更にSemantic Layer特有の機能として、データカタログの辞書機能に指標を自動登録したり、DWHに負荷がかからないようなキャッシュの機能も、Semantic Layerには備わっております。

Q:リバースETLも、フローとしてはデータマート・ビューで提供するのと同種のような気がしますが、どんな違いやメリット・デメリットがありますでしょうか?

Reverse ETLの機能を持つHightouchやCensusのようなサービスを導入したときの、メリット・デメリットという観点で回答致します。

メリットとしては、Reverse ETLに強みを持つHightouchやCensusの強みは「前回連携時との差分を自動取得してくれる」「連携先のAPIを叩くプログラムの開発・運用が不要となる」が挙げられます。

「前回連携時との差分を自動取得してくれる」という観点だと、データマートに該当するテーブルやビューでもロジックを入れることで差分を入れることもできますが、もしReverse ETLの連携処理が失敗してしまった時、どのデータからリカバリを行えば二重登録とならずに済むか、など悩む場面が出てくると思います。この点についてはHightouchやCensusがあると、前回更新を行ったあるいは失敗した時点から連携処理を再開してくれるため、このリカバリ面で苦慮せずに済みます。

「連携先のAPIを叩くプログラムの開発・運用が不要となる」という観点だと、この通りではあるのですがAPIを叩く処理はHightouchやCensus側で開発されているため、ユーザー側でこれらの処理の開発が不要となります。

デメリットは、HightouchやCensusといったサービスを使用する場合には利用コストが発生します。そのためこのサービス利用コストを、手動でReverse ETLの処理を開発する際の開発・運用コストと比較したときにどう捉えるか、という点が導入検討時のポイントになってきます。

Q:データウェアハウスとデータソースの連携ツールは、Fivetranのような海外のもののみになりますでしょうか?やはり海外製品だとサポートの面で不安があります。

Fivetran社との直接契約だとサポートが英語のみになってしまいますが、(宣伝で恐縮ですが)弊社のような販売代理店ですと、Fivetranは日本語サポートを対応しております。

また、日本製の製品ですと、弊社で開発しているCSAや、弊社以外のものだとtroccoなどが挙げられると思います。

最後に

スライドのまとめ部分でも述べておりますが、昨今のデータ活用は「DWHにデータを溜めてダッシュボードを作って終わり」ではなくなってきております。

データを活用することで、作業の効率化を図る、新しいインサイトを得る、データを元に収益を得る、という形で様々なビジネスに貢献ができるはずです。テクノロジーの発展により「こんなことできないかな?」というアイデアが以前より間違いなく実現しやすくなってきていると思いますので、データを上手く活用していきたいですね!