「禁忌解放~TableauとLookerを連携して究極のBI環境を召喚する」というセッションで禁忌を破りました #devio2020
奈良県でリモートワーク中の玉井です。
6月16日より、クラスメソッドの年次技術イベント「Developers.IO 2020 CONNECT」を開催しています。期間は2020年6月16日(火)から7月7日(火)、テーマごとに7日間の日程に分けて開催、セッションはなんと合計100本以上あります。
私は、6月19日(金)のライブセッションの2本目を担当しました。ということで登壇中の動画や資料などを記しておきたいと思います。
登壇動画
下記のYouTubeチャンネルの登録もお願いします。
参考資料
- Looker APIを使ってLooker上で定義されたデータを取得する #looker | Developers.IO
- LookerとAlteryxを連携させてノンコードで機械学習をやってみた #looker | Developers.IO
- Snowflakeに中森明菜の名曲「DESIRE -情熱-」のデータを入れる | Developers.IO
- Lookerで中森明菜の名曲「DESIRE -情熱-」のデータを分析する | Developers.IO
- Looker API 3.1 Reference
- Tableau Hyper APIが登場したので使ってみた #tableau | Developers.IO
- Tableau 抽出 API - Tableau
- Alteryx2018.4新機能紹介:Publish to Tableau Server Toolが新しくなってConnectors(コネクタ)カテゴリから選べるようになりました | Developers.IO
- Publish to Tableau Server Tool
Q&A
LookerとTableauを組み合わせると、データソースからモデリング・可視化と複数の仕組みを経由するためパフォーマンス上の懸念がありそうな気がします。もちろんDWHの性能に左右されるとは思いますが、単一製品の場合のパフォーマンスと比べ性能的にはいかがでしょうか。
今回ご紹介した仕組みを前提として回答します。パフォーマンスといっても、いくつか観点があると思うので、それぞれに分けて回答します。分けて考えると、結局のところはTableauとLookerそれぞれでパフォーマンスを考えることになり、結果としては、組み合わせることによって初めて出てくる懸念事項というのは無いです。
Tableauで可視化する部分におけるパフォーマンス
Tableau Desktopで作成する場合、参照するデータは「抽出ファイル(Hyperファイル)」になります。抽出ファイルというのは、Tableau専用のファイル形式で、Tableauにとって一番都合の良い形式となっています。ですので、むしろTableauにとって一番パフォーマンスを発揮することができます。
Tableau Online(またはTableau Server)上でVizを作成する場合でも同様ですが、Tableau OnlineやTableau Server側のスペックも多少絡んできます。Tableau OnlineはTableau社が運用管理しているのでどうしようもできませんが、Tableau Serverの場合は、Tableau Server側のスペックを向上させることでパフォーマンスを改善できるかもしれません。
Lookerの操作時におけるパフォーマンス
今回の場合、Lookerで可視化は行いませんが、「データをとってくる用のLook」とかを作る時のパフォーマンスが気になるかもしれません。ただし、Lookerのパフォーマンスは、ほとんど接続しているデータソース(DWH等)に依存します。ですので、Lookerのパフォーマンスが気になる場合は、データソース側のスペックを向上させるのが一番早いです。
連携処理におけるパフォーマンス
おそらく一番気になるのはここかな、と思いました。連携するデータ件数が億単位とかになると、結構気になるかもしれません。これも、連携処理をさらに分けて考えましょう。
まずLooker APIを叩く方ですが、これは前述したとおり、Lookerのパフォーマンスはデータソース側に依存するので、こちらについてはデータソース側で対応することになります(APIを経由しても、Lookerがやることはデータソースにクエリを投げることに変わりはないので、結局はデータソース側のスペックによる)。
Tableau OnlineやTableau Serverにパブリッシュする方ですが、足を引っ張るとしたらこちらだと思います。検証できる環境がある方は、実際に何千万~億くらいのデータをパブリッシュしてみてください。そこそこ時間がかかります。これについては、Tableau OnlineやTableau Server側のスペックが影響してくるので、本気でやるなら、Tableau OnlineではなくTableau Serverを選んで、Tableau Serverを乗せるインフラをリッチなものにすることを推奨します。後は、本当に必要なデータのみに絞るとかですね(月単位のデータしかいらないのに、日単位のデータを連携してしまう等)。
デモ環境をビジネスで使用する場合の、ライセンス費用はどのくらいをみておけばいいのでしょうか。
費用については下記からお問い合わせください。
登壇スライド
おわりに
昨年(DevIO2019)は名古屋、大阪、東京と、3つの会場を渡り歩いて物理的な登壇を行いました。まさか今年は全面オンラインになるなんて、その時は思いもしていませんでした。オンラインイベントは登壇側も視聴側も場所を選ばないのが強みですね。かくいう私も奈良県という田舎から全国の方に向けて強いメッセージを発信することができました。
田舎者としては、出張した時に普段会えない人たちと会えたりするのが楽しみの一つだったりしたのですが、再びそれができるようになるのは、もう少し先の話になりそうです。