[レポート] Analytics in a multi-cloud world with BigQuery Omni – Google Cloud Next ’20: OnAir #GoogleCloudNext
こんにちは、Mr.Moです。
現在、2020年7月14日から9月8日までの数週間にわたってGoogle Cloudのデジタルイベント『Google Cloud Next ’20: OnAir』が開催されています。
当エントリでは、その中から「Data Analytics」のセッションとして公開された『Analytics in a multi-cloud world with BigQuery Omni』の内容をまとめてみたいと思います。(独自の解釈なども含まれると思いますのであらかじめご了承ください)
はじめに
現状、ユーザは様々なツールを使っており、また、色々な場所からデータを取得しなければなりません。まさにデータサイロな世界です。なぜこのようなことが起きているのか。とある調査ではパブリッククラウドを利用している企業の多くが複数のクラウドサービスプロバイダを利用しているという結果が出ています。つまり、複数のクラウドを管理することが真の課題になってきているということです。ということでBigQuery Omniの出番なわけです。
BigQuery Omniのイメージ
上の図はとある検証を実施しようとしているところですが、必要なデータがAWS上にある前提ですね。右上の図をよく見ていただくとBigQueryのデータセットにAWSが接続されているように見えます。左下の図ではAWSのS3に対してクエリで操作も行っていますね。(ここではAWS上にあるデータは個人情報を含んでおり、AWSの外には出せないというケースのようです。BigQuery Omniはそういったケースにも対応できるようです)
BigQuery Omniの仕組み
BigQueryではDremelというBigQueryにおいて重要な技術が使われていますが、このDremelのコンピューティングクラスターとストレージを分離させているアーキテクチャーによってBigQuery Omniは実現できています。図を見るとAnthos上でDremelが展開されていますね。また、BigQuery Omniでは他のクラウドからデータを移動させるということは不要でこれまでと同じくBigQueryのUIと標準SQLでクエリを実行できます。BigQuery Omniもフルマネージドで提供されます。データサイロを超越した分析が可能なサービスと言えそうです。
BigQuery Omniを使い始める
GCPのBigQuery UIでデータが配置されているパブリッククラウドリージョンを選択し、クエリを実行します。クエリは他のパブリッククラウドに渡され、すべての計算はそのパブリッククラウドのリージョン内で行われます。また、データをフォーマットしたり変換したりする必要が無いのですぐに使い始めることができます。BigQuery Omniでは Avro、CSV、JSON、ORC、Parquetなどのフォーマットをサポートしています。他のパブリッククラウドから元データを移動したりコピーしたりする必要もなく、クラスタ管理やリソースのプロビジョニングを行う必要もありません。バックグラウンドでは、BigQueryマネージドサービス内のAnthosクラスタ上でBigQueryのクエリエンジンが実行されています。ユーザーアカウント内のデータストレージからデータを取得するのも、他のパブリッククラウドのIAMロールを介して権限が許可された場合のみです。
おわりに
最後にBigQuery Omniが何をもたらしてくれるか再確認しましょう。
- データサイロの解消
- 一貫性のあるデータエクスペリエンス
- Anthosによるポータビリティ性
クラウドをまたいだマルチクラウドな分析、そしてどこからでも使い慣れたBigQueryのUIで一貫した分析を行うことができ、さらにAnthosによるフルマネージドな環境の展開。ユーザはどの場所でもインフラストラクチャを気にする必要がないんですね。
まとめ
「Data Analytics」シリーズの最大の目玉 BigQuery Omniのセッションでした。Googleが推し進めているマルチクラウド戦略の鍵となるサービスだと改めて認識する内容でしたね。BigQueryも10周年を迎えたそうです。依然としてGoogleの中核を担うサービスなので今後の進化が非常に楽しみです。