[レポート] What’s New in BigQuery, Google Cloud’s Modern Data Warehouse – Google Cloud Next ’20: OnAir #GoogleCloudNext

2020.08.23

現在、2020年7月14日から9月8日までの数週間にわたってGoogle Cloudのデジタルイベント『Google Cloud Next ’20: OnAir』が開催されています。

このイベントでは、2020年7月14日から毎週、異なるテーマで様々なセッションや催しのコンテンツが公開されています。(コンテンツは PDT[米国太平洋標準時(夏時間)]での火曜日午前9時→JST[日本時間]の水曜午前1時に配信される形になっています)

  • 1.[2020/07/14〜] Industry Insights
  • 2.[2020/07/21〜] Productivity & Collaboration
  • 3.[2020/07/28〜] Infrastructure
  • 4.[2020/08/04〜] Security
  • 5.[2020/08/11〜] Data Analytics
  • 6.[2020/08/18〜] Data Management & Databases
  • 7.[2020/08/25〜] Application & Modernization
  • 8.[2020/09/01〜] Cloud AI
  • 9.[2020/09/08〜] Business Application & Platform

当エントリでは、その中から「Data Analytics」のセッションとして公開された『What's New in BigQuery, Google Cloud's Modern Data Warehouse』の内容について紹介していきたいと思います。

目次

 

セッション概要

公式ページで紹介されているセッションの概要情報は以下の通り。

Title(タイトル)
What's New in BigQuery, Google Cloud's Modern Data Warehouse
(Google Cloudの最新データウェアハウス「BigQuery」の新機能)

Speakers(講演者):
Sudhir Hasbe (Director, Product Management / Google Cloud)
Tino Tereshko (Google Cloud)

Description(説明):
Today's enterprise demands from data go far beyond the capabilities of traditional data warehousing, and for many leaders, the need to digitally transform their businesses is a key driver for data analytics spending. Businesses want to make real-time decisions from fresh information as well as make future predictions from their data in order to remain competitive. Attend this session to learn what's new in BigQuery, Google Cloud's enterprise data warehouse, and hear about all the latest feature innovations and see some amazing demos.
(今日の企業のデータに対する要求は、従来のデータウェアハウスの機能をはるかに超えており、多くのリーダーにとって、ビジネスをデジタル化する必要性が、データ分析の支出の主要な推進力となっています。企業は、競争力を維持するために、新鮮な情報からリアルタイムの意思決定を行い、データから将来の予測を行いたいと考えています。このセッションに参加して、Google CloudのエンタープライズデータウェアハウスであるBigQueryの新機能について学び、最新の革新的な機能について聞いたり、素晴らしいデモを見たりしましょう。)

 

セッションレポート

 

BigQuery概要

  • スマートアナリティクスのビジョン
    • オープン&フレキシブル
    • インテリジェント
    • 証明された信頼性
  • GCPのビジョン:データ駆動型の意思決定を容易にする信頼性の高い、実績のあるエンタープライズクラウドデータプラットフォームを提供
  • オープンな哲学に基づいて構築し、柔軟な機能を提供し、インテリジェントな Google テクノロジーを適用することで、お客様が人材やデータへの投資を最大限に活用できるようにする

  • Google BigQuery:テラバイト〜100ペタバイト級以上のデータを扱う顧客を持つデータウェアハウス

    • クラウド規模の企業データウェアハウス
    • DMLをサポートした標準SQL(ANSI 2011)
    • 暗号化されており、耐久性があり、入手性が高い
  • 数字で楽しむBigQuery
    • 「350ペタバイト」:あるお客様が保有するデータ量
    • 「100,000,000,000,000(100兆行)」:複数の顧客からの問い合わせ
    • 「10000同時クエリ」:あるお客様環境における実行

 

BigQuery製品ロードマップ

前述の3本の柱に分ける形で以下のトピックを紹介。

  • オープン&フレキシブル:お客様に最大限の柔軟性を提供するオープンプラットフォームへの集中的な投資を行う
    • どこでもBigQueryを
    • 柔軟な価格設定
    • データプラットフォームの相互運用性
  • インテリジェント:既存のユーザー能力と組織能力を拡張するためのに、機能の革新的な成長を目指す
    • 洞察力の民主化
    • 埋め込みML
    • リアルタイム分析
  • 証明された信頼性:企業の最も重要な資産である「データ」を守りながら拡大させていく
    • 可用性
    • 管理面
    • パフォーマンス面
    • 信頼とセキュリティ

 

「証明された信頼性」関連トピック

  • 99.99%のSLAを発表:サーバーレスアーキテクチャが牽引するBigQueryの可用性の優位性を強化
    • 高可用性
    • 業界をリードする最高の可用性を備えたクラウドデータウェアハウス
    • 追加料金無し:全てのBigQueryのお客様にすぐに提供
  • 継続的なパフォーマンスの改善
  • 高速化改善の継続
  • シンプルでありながらパワフルな管理機能
  • BigQueryスロット自動スケーリングによるスロット管理の自動化(Coming Soon)
    • VMレスのメリット
    • 自動起動・自動一時停止
    • 最高のパフォーマンスを得るための「0秒ウォームアップ」
    • スロットの増加により、フライト中のクエリを加速
    • ローカルディスクの飽和によるパフォーマンスの低下無し
    • 大規模なハードウェア障害に強い
  • 管理者パネルUIによるネイティブ監視(Roadmap)
    • リアルタイム&ヒストリカル
    • クエリとスロットの監視
    • 使用パターンを理解し、根本原因分析の実施が可能に
  • 価格設定に関するリコメンド機能
    • BigQueryスロットレコメンド(ALPHA)
    • 利用状況に応じて最適なビッグクエリー課金モデルを選択
    • 毎月&年間のスロットコミットメントでお得に
    • 予め容量を予約しておくことで、無制限のクエリを実行可能に
  • ガバナンスとセキュリティ

 

「インテリジェント」関連トピック

  • BigQuery管理画面UIの刷新
    • マルチタブ編集
    • より高速且つ新しいIDE
    • サジェスト機能
    • データセット&テーブルパネルのリニューアル
  • Data QnA(BigQuery用の自然言語インターフェース)
    • Data QnA でデータ分析をすべてのユーザーに | Google Cloud Blog
    • 自然言語を用いたセルフサービス分析によるインサイトの民主化
    • "アドホックな"報告書を排除し、Blチームの生産性を向上
    • 複数のインターフェイスを介したアクセスが可能に
      • Gogole Sheets, BigQuery, ChatbotまたはカスタムUI(API経由), Looker Google Voice
  • BigQuery埋め込みML(データウェアハウスから離れずにSQLで機械学習を行う)
    • BigQueryからデータを移動せずにMLの取り組みを実行
    • BigQueryのSQLでモデルを反復処理して開発速度を向上
    • 一般的なMLタスクの自動化、ハイパーパラメータのチューニング
    • BigQueryでサポートするMLモデル
  • リアルタイム分析
    • ストリーミングV2
    • マテリアライズドビュー
    • BIエンジン
    • Millions of QPS out of the box
    • 効率的でシームレスなメンテナンス
    • インメモリ実行エンジン
    • Exactly once semantics
    • 常に一貫性のある
    • サブセコンドクエリ
    • クエリのパフォーマンスを低下させない
    • スマートなクエリの再ルーティング
    • スマートチューニング
  • BI Engine for Big Query(Roadmap)
    • アダプティブキャッシュがBI EngineのRAMに最もホットなデータを自動的に保持
    • BigQueryクエリはサブ秒で実行される
    • BigQuery SQLの直接使用
    • Tableau、Looker、PowerBI、BigQuery UIなどが対応
    • BigQueryアダプティブキャッシュ(Adaptive Caching)について:

 

「オープン&フレキシブル」関連トピック

  • BigQuery Omni
  • データレイクの相互運用性
    • BQストレージAPI
      • DataflowやDataprocにはGCSのようなBigQuery Storageを使用することで「データウェアハウスの貯蔵の壁」を破る
      • BigQuery上での高性能データフレームを実行
    • CloudSQLフェデレーション
      • データを移動することなく、BigQueryから直接CloudSQLインスタンスをクエリ
    • Parquet&ORCフェデレーション
      • GCSでParquetとORCファイルを直接クエリ
  • 自動化されたデータ転送とフェデレーション
    • BiqQueryを使用して組織に取って重要な全てのデータを分析
    • ユーザーはストレージと計算の最適な決定を自由に行えるようになる

 

まとめ

という訳で、Google Cloud Next ’20のLookerセッション『What's New in BigQuery, Google Cloud's Modern Data Warehouse』の内容に関するレポートでした。現在利用可能なもの、また「Coming Soon」や「Roadmap」など、現時点ではまだ利用可能では無く今後来ますよ的なトピックも幾つかありましたが、いずれの内容もヤバそうなものばかりでしたね。私個人としても色々使ってみたいと思います。