【レポート】最新情報:クロスクラウドプラットフォームの進化とコストおよびパフォーマンスの最適化 #SnowflakeDB

2023.09.11

2023年9月8日(金)に ANAインターコンチネンタル東京にて、Snowflake 社による日本最大級のデータイベント「Snowflake Data Cloud World Tour Tokyo」が開催されました。

本記事では、Snowflake株式会社 高山氏による「最新情報:クロスクラウドプラットフォームの進化とコストおよびパフォーマンスの最適化」というセッションについてレポートします。

セッション情報

  • セッションタイトル
    • 最新情報:クロスクラウドプラットフォームの進化とコストおよびパフォーマンスの最適化
  • スピーカー
    • Snowflake株式会社 セールスエンジニアリング本部 高山 博史 氏
  • セッション概要

シングルプラットフォームとしてのSnowflakeも常に進化し続けています。このセッションではクロスクラウドによるビジネス継続性向上、プラットフォームとしてのパフォーマンス改善、分析機能の追加などプラットフォームとの進化に加え、コスト監視や最適化についてのトピックも扱います。

DATA CLOUD WORLD TOUR Tokyo – アジェンダより引用

セッション内容

はじめに

  • Snowflakeの移行実績
    • 以下の3種類が主
      • オンプレミスのDWH、RDBからの移行
      • 運用負荷の大きいビッグデータ基盤からの移行
      • クラウドプロバイダーの分析サービスからの移行
    • 運用、チューニング、パフォーマンスに課題があり Snowflake に移行した例は多い
      • 国内の場合、S3 など安価なクラウドサービスストレージに貯めたデータ活用のためにSnowflake を導入する事例が多かった
  • 移行時のサポート
    • Snowflake のツールとパートナーエコシステムにより移行をサポート
      • プロフェッショナルサービスの提供
      • コード変換(SnowConvert)
  • パートナー様による移行事例も多数

以降は、以下の3つの観点で Snowflake のアップデート情報をご紹介

  • ミッションクリティカル
  • コストとパフォーマンスの最適化
  • 高度なアナリティクス

ミッションクリティカル

セキュリティ、データガバナンス・事業継続性の2つの観点からご紹介。

  • セキュリティ、データガバナンスの観点
    • Snowflake は、すでに高いレベルのセキュリティ要件を満たすケースで採用事例も多い
    • セキュリティ、ガバナンス関連のアップデート一覧
      • データ品質モニタリング
        • ロードされるデータの変化を検知する機能
        • まもなくプライベートプレビュー
  • 事業継続性の観点
    • Snowflake では AZ 単位の可用性は標準で組み込まれている
    • クロスクラウドの事業継続性オプションも提供
    • すでに提供済みのデータレプリケーションに加え、アカウント情報、データパイプラインのレプリケーションも提供予定
  • 新機能まとめ

コストとパフォーマンスの最適化

パフォーマンスに関する事例やコストの最適化に関するアップデートをご紹介。

  • パフォーマンス
    • Snowflake は、プラットフォームとして常にパフォーマンスの向上を実施している
    • パフォーマンス向上の例
      • 下図のベンチマークは、実際のお客様のワークロードでの性能向上を計測したもの
      • 毎日繰り返される同様のバッチ処理(同様のデータ量、同様のクエリ)を計測し続けたところ、15 % 程の性能向上を測定
      • お客様側としては何も設定変更しておらず、純粋に Snowflake のパフォーマンスが向上していることがわかる
  • 検索最適化サービスによるコスト削減とパフォーマンス向上
    • 検索最適化サービス
      • Enterprise Edition 以上で利用可能
      • ポイントルックアップクエリと呼ばれる大規模なテーブルから条件を使ってデータを絞り込むときや、特定の種類のデータを検索するクエリのパフォーマンスを向上させることが期待できる機能
    • 検索最適化サービスの機能(下図)
  • 検索最適化によるパフォーマンス向上の事例
    • 検索最適化サービスのメリットを受けるクエリである必要があるので注意
      • すべてのクエリでパフォーマンスが向上するわけではないので、ドキュメントを確認すること
  • Top-K プルーニング
    • LIMIT句と ORDER BY句の両方を含む長時間実行されるクエリの性能向上
    • Snowflake 側でアルゴリズムの改善を行っている
      • プルーニングによるスキャン領域の制限を活用
  • クエリアクセラレーションサービス
    • Enterprise Edition 以上で利用可能
    • 通常のクエリよりも多くのリソースを使用するクエリがあった際に、サーバレスリソースを使用し、一時的にウェアハウス全体のパフォーマンスを向上させる機能
    • すべてのクエリで効果があるわけではないので注意
  • コストの可視性と管理
    • コスト把握のための機能改善について
    • 予算(Budgets)が間もなくパブリック プレビュー
      • 利用用途やワークロードごとに予算を設定して管理するための機能

高度なアナリティクス

高度な分析時に利用可能なアップデート情報をご紹介。

  • 地理空間分析
    • Snowflake ユーザーの約70%が位置情報を保存している
    • Snowflake としても GEOMETRY, GEOGRAPHY データ型をサポート
  • SQL の改善
    • SELECT * における EXCLUDE と RENAME のサポート
      • 大量の列がある際に便利
  • データ型
    • 型付き配列、型付きオブジェクト、型付きマップのサポート
      • 間もなくプライベートプレビュー
      • データロード時の品質を高める効果が期待できる
    • Iceberg テーブルのサポートも開始
  • SQL ベースでの機械学習機能
    • アプリケーションや BI ツールからも利用できる
  • Sreamlit in Snowflake
    • Python のみで UI を構築できる
    • 現在、Snowflake に統合中。間もなくパブリックプレビュー

まとめ

  • 本セッションでは上述の各観点から網羅的にアップデート情報をご紹介

さいごに

本セッションでは、ミッションクリティカル・コストとパフォーマンスの最適化・高度なアナリティクスの3つの観点から最新のアップデート情報をご紹介いただきました。

ステータスは様々で、すでに一般提供されているものから間もなくパブリックプレビューとなり一般ユーザーでも利用可能な機能もあるので、さらなるアップデートに期待です!