#gc_inside [レポート] 今だから知りたい BigQuery 再入門 – Google Cloud INSIDE Games & Apps 第 11 回『祝 BigQuery 10 周年! 今こそ学ぶ BigQuery 徹底活用法』

2020.09.10

2020年09月09日、『Google Cloud INSIDE Games & Apps』の第11回目のイベントがオンラインで開催されていました。今回はGoogle BigQuery 10周年とタイミングが重なったということで、タイトルも『祝 BigQuery 10 周年! 今こそ学ぶ BigQuery 徹底活用法』という形で全セッション、BigQueryに関する内容となっていました。

当エントリでは、その中から一番最初に発表されたBigQuery概要説明セッション『今だから知りたい BigQuery 再入門』の内容について紹介します。

目次

セッション動画&スライド資料

 

YouTube動画

※当該セッションは8:56頃から始まります。

 

スライド資料(Slideshare)

 

セッションレポート

以下、セッション内容についてレポートします。

  • 登壇者: 奈良岡 仁氏 (Google Cloud カスタマー エンジニア)

 

BigQueryとは

  • 誕生10周年を超えた分析向けエンタープライズDWH
  • PBスケールのストレージとSQLクエリ
  • 暗号化・耐久性・高い可用性
  • サーバレスなプラットフォーム
  • リアルタイムのインサイト
  • ビルトインMLに対応
  • 誰もが利用出来る分析基盤を目指している

 

スピード

  • 継続的なパフォーマンス改善:1ペタバイトのクエリに対する速度比較(クラスタ化テーブルを利用したもの)を検証、年々驚異的な高速化を遂げている
  • BigQueryのアーキテクチャ
      • フルマネージド、サーバレスなのでセットアップ作業は不要
    • 一番のポイントはストレージとコンピュートが分離
    • クエリに必要な分のリソースが自動的に割り当てられる
    • ダウンタイム発生無し
    • ストレージスケーリングも不要
  • スケーラビリティ
    • 大規模にスケール可能
    • 高い同時実行数

 

コスト

  • 従来のデータウェアハウス:分析と洞察に使える時間は少ない
  • ほぼすべての時間を分析と洞察に使える
  • コスト優位性
  • 主なコスト構成要素:基本はクエリによる計算量とストレージ容量による課金(※以下金額は2020年09月時点 US(multi-region)の例)
    • クエリコスト:$5.00 per TB
    • ストレージコスト:$.0.020 per GB
    • データ取り込みコスト
      • バッチロード:無料
      • ストリーミング:$0.010 per 200MB
  • クエリコストの2つの料金モデル:お客様のニーズに合わせて使い分け
    • オンデマンド
      • デフォルトの料金体系
      • 実行したクエリに対してのみ発生
      • プロジェクトあたりの同時実行最大スロット数:2000
    • クエリ定額制
      • 専用のクエリ容量(スロット)を予約して購入
      • 費用が固定で予測可能
  • スロットとは?
    • クエリ実行時に使用される仮想CPUのこと
    • BigQueryではデータ処理にこのスロットを用いる
    • サイズと複雑さに応じて、必要なスロット数を自動的に計算し割当て
  • BiQuery Reservation: クエリ定額制のスロットをGCPのWebコンソールから購入、管理する機能。
  • スロットのコミットメントプラン:期間と価格で分かれている
    • Flex Slots(秒単位〜日単位のワークロード)
    • 月次契約(月単位ワークフロー)
    • 年間契約(年単位ワークフロー)
  • ストレージコスト:
    • BigQueryに保存されているデータ量に応じて課金
    • 長期間保存が無かったデータに対しては自動的に割引価格を適用(※以下金額は2020年09月時点 US(multi-region)の例)
      • アクティブストレージ:$0.020 per GB
      • 長期保存ストレージ:$0.010 per GB
        • こちらのストレージであってもパフォーマンスや耐久性、可用性は損なわれない

 

機能/サービス連携

BigQuery ML

  • BigQuery ML の概要  |  Google Cloud
  • データをBigQueryから移動させる事無く機械学習モデルを実行
  • BigQuery内でSQLを使い機械学習プロセスを反復することで開発スピードアップ
  • 一般的なMLタスクやハイパーパラメータチューニングを自動化

Connected Sheets

  • Connected Sheets の使用  |  BigQuery  |  Google Cloud
  • インサイトの民主化
  • SQL知識無しでGoogleスプレッドシートから数十億行のライブBigQueryデータを分析
  • ピボットテーブル、グラフ、式のような使い慣れたツールを使用し、ビッグデータから簡単にインサイトを得る事が出来る
  • (注)G Suite Enterpriseでのみ利用可能

GCPの他サービスとの連携

 

まとめ

という訳で、Google Cloud INSIDE Games & Apps 第11回のセッション『今だから知りたい BigQuery 再入門』の紹介でした。パフォーマンスの向上ペースについては動画等でも詳しく紹介されていますが、驚く内容でしたね。また、途中言及していたBigQuery MLについても、SQLで直接操作・実行出来るというのが非常に興味深い点だなと思いました。別途後続セッションでも内容が紹介されていましたので改めて内容を学んでみたいと思います。