Data Cloud Summit 2024の「PLATFORM KEYNOTE」で発表された内容に関する公式情報まとめ #SnowflakeDB #SnowflakeSummit #DataCloudSummit
さがらです。
Snowflakeの年次最大のイベントとなる「Data Cloud Summit 2024」が現地時間2024年6月3日~6日で開催しております。
この内、2024年6月4日の「PLATFORM KEYNOTE」にて多くの新機能の発表が行われ、併せてリリースノート・公式ブログ・YouTubeで情報も公開されました。
本記事では、併せて公開された公式情報の内容をまとめてみます。
リリースノート:Jun 03-06, 2024 — Summit announcements
Snowflakeのリリースノートである「What’s New」でもSummit専用のページが出ていたので、まずはその内容からまとめます。
Specify appearance in Snowsight — Preview
SnowsightのUIでdark modeを指定できるようになりました。背景が黒くなり、テキストが明るくなるUIとなります。(他の製品でも見るダークモードと同じイメージです。)
手順はドキュメントも公開されています。
Snowflake Native SDK for Connectors — Preview
Snowflake Native SDK for Connectorsがパブリックプレビューとなりました。
これは外部データソースからSnowflakeにデータを簡単に取り込むための独自のSnowflake Native Appベースのコネクタを迅速に構築するために使用できるJavaのテンプレートとクイックスタートが含まれたライブラリとなっています。
ドキュメントも併せて公開されています。
Snowflake Notebooks — Preview
Snowflake Notebooksという、PythonとSQLを用いて対話的なセルベースのプログラミング環境がパブリックプレビューとなりました。(これは1週間ほど前から公開されていたため、知っている方も多いと思います。)
ドキュメントも併せて公開されています。(下記のGifもこのドキュメントより引用)
Snowpark pandas API — Preview
Snowflake上のデータを直接Pandasのコードで実行できる、Snowpark pandas APIがパブリックプレビューとなりました。
Snowpark Pythonと同じく、PandasのコードをSQLへと変換した上で実行されるため、Snowflakeの並列化処理などの恩恵を受けることが出来ます。元々Pandasを用いて別プラットフォームで開発していたユーザーにとってSnowpark Pythonへの移行は難しいところもあったため、これで移行が楽になるのではないでしょうか!
ドキュメントも併せて公開されています。
Snowflake Cortex Fine-Tuning — Preview
MistralやLlama3など既存のLLMに対してパラメータを調整することができるSnowflake Cortex Fine-Tuningがパブリックプレビューとなりました。
ドキュメントも併せて公開されています。
Snowflake Native Apps with Snowpark Container Services — Preview
Snowflake Native App内でSnowpark Container Servicesがサポートする任意のコンテナ化されたサービスを実行できるようになりました。 ※パブリックプレビュー
ドキュメントも併せて公開されています。
Snowpark Python local testing framework — General availability
Pythonコードをローカル環境でエミュレートすることができる、Snowpark Python local testing frameworkが一般提供となりました。
詳細はドキュメントをご覧ください。
Universal Search — General availability
SnowsightのSearchタブから自然言語で検索することで、テーブル、関数、データベース、Snowflake Marketplaceで利用可能なData Products、関連するSnowflakeドキュメント、Snowflake Community Knowledge Baseの関連記事をまとめて検索できるUniversal Searchが一般提供となりました。
詳細はドキュメントをご覧ください。
Universal Searchについては私も一度ブログで検証したことがありますので、こちらもぜひご覧ください。
公式ブログ:Snowflake’s Best-in-Class Enterprise Data Foundation Unlocks Interoperability with Open Data and Internal Collaboration
Supporting open storage architectures
この章では、以下の新機能について言及されています。
- Polaris Catalog:Iceberg用のCatalogとなっており、Snowflakeだけでなく、PyIceberg、Spark、Trinoなど色々な環境から読み書き対応が出来るのが売りとなっています。※今後90日以内にオープンソースとして提供予定
- Iceberg Table:まもなく一般提供となるようです(リリースノートではまだ未記載)。これにより、Snowpark・Streams・Tasks・Dynamic Tablesによる変換パイプライン、Snowflake Cortex AIのサポート、自動クラスタリング、データシェアリングなどがIceberg Tableでもできるようになるとのことです。
- Parquet Direct:新しいParquetファイルがストレージに入った際に、Parquetファイルを書き換えたり複製したりすることなくIcebergを使用できる機能 ※プライベートプレビュー
- Delta Direct:データレイクでDelta Lakeを使用している場合に、UniFormの要件をすべて満たすことなく、Delta LakeのテーブルをIcebergの「Bronze」および「Silver」レイヤーのテーブルとしてSnowflakeで使用できるようになる機能 ※プライベートプレビュー
Built-in governance and discovery, now for internal teams
この章では、以下の新機能について言及されています。
- Internal Marketplace:Organization内に閉じたData Productsの共有を行える機能 ※プライベートプレビュー
- AI-powered Object Descriptions:AI機能を用いたテーブルやビューへのDescriptionの自動編集機能 ※プライベートプレビュー
- Object Insights Interface:各テーブルやビューについて、人気度合い、アクセスの多さ、品質、別テーブルやビューとの依存関係についての情報を表示する機能 ※プライベートプレビュー
- Sensitive Data Auto-Classification:機密データの分類を自動化できる機能 ※プライベートプレビュー
- Automatic Tag Propagation:タグの伝播を自動化できる機能 ※プライベートプレビュー
- Snowflake Cortex Guard:生成AIアプリを開発する際に、Llama Guardを使用した、暴力や憎悪、自傷行為、犯罪行為などのコンテンツをフィルタリングできる機能 ※まもなく一般提供
- Trust Center:Snowflakeアカウントのセキュリティリスクを発見し、それを解決するための推奨事項を1つの使いやすいインターフェイスで提供する機能。弊社のブログもあります。 ※まもなく一般提供
- Trust Centerの機能強化:Snowflake Native Appsを継続的にスキャンし、ソフトウェア脆弱性に関する情報を提供 ※近日中にプライベートプレビュー
- Snowflake Data Clean Roomsに関する新機能(いずれも詳細がこのブログだけではわからず…)
- Synthetic Data Generation:元のデータセットにアクセスすることなく、より多くのユーザーが機密データを使用したテスト・開発ができるようになる機能。 ※まもなくプライベートプレビュー
- Differential Privacy Policies:ノイズを追加することで再識別化やプライバシー攻撃からデータを保護しながら、きめ細かく、非常にセンシティブなデータから価値を引き出すことができる機能 ※まもなくパブリックプレビュー
- Lineage Visualization Interfaceの拡張:Viewの対応が間もなくパブリックプレビュー、Modelへの対応がプライベートプレビュー
- Data Quality Monitoring:データ品質に関するメトリクスを自動的に測定・監視するための機能 ※まもなく一般提供
Continuously improving performance and built-in cost management
この章では、Snowflakeの継続的なパフォーマンス改善とコスト管理について言及されています。
- Snowflakeが継続的にクエリ実行時間の短縮を継続しており、最新のSnowflake Performance Index (SPI) の結果では、2022年8月25日から2024年4月30日の間に27%、過去12か月間で12%の改善が見られました。
- コスト管理のためのCost Management Interface:Snowsight上でのコスト管理機能 ※一般提供
- per-query cost attribution:ウェアハウスの消費を特定のクエリに帰属させることを可能にする機能(私も詳細がわからず…) ※まもなくパブリックプレビュー
Faster, easier ingest
この章では、データロードをさらにコスト効率よく早くするための取り組みや新機能について言及されています。
- JSONファイルの読み込みで最大25%、Parquetファイルの読み込みで最大50%のパフォーマンス向上を発表
- Snowflake Connector for PostgreSQL ※まもなくパブリックプレビュー
- Snowflake Connector for MySQL ※まもなくパブリックプレビュー
- Snowflake Connector for Google Analytics ※一般提供
Global regulated and sovereign markets expansion
この章では、各国の規制要件を満たすための取り組みについて言及されています。
米国国防総省(DoD)のお客様向けに、非常に特殊な規制要件を確実に満たすことができるよう、 Defense Information System NetworkのBoundary Cloud Access Point (BCAP)とのネットワーク統合を含む、Impact Level 4 (IL4)認定環境を間もなく一般提供する予定とのことです。
Advanced analytics
この章では、より有意義なデータ分析を行うための各機能について言及されています。
- Time Series ASOF JOIN ※一般提供
- Time Series RANGE BETWEEN ※まもなくパブリックプレビュー
- Higher-order Functions ※まもなくパブリックプレビュー
- Full Text Search:特定のカラムまたは1つ以上のテーブルに対してテキストベースでの検索が出来るようになる機能 ※まもなくパブリックプレビュー
公式ブログ:Snowflake Announces State-of-the-Art AI to Talk to your Data, Securely Customize LLMs and Streamline Model Operations
Talk to your data using state-of-the-art AI
この章では、Cortex SearchとCortex Analystについて言及されています。
- Cortex Search:WikiやFAQのようなドキュメントファイルや、その他のテキストベースのデータセットを参照するRAGアプリケーション(チャットボット)をGUIベースの操作で簡単に構築できる機能 ※まもなくパブリックプレビュー
- Cortex Analyst:ビジネスユーザーが自然言語で質問するだけで、データの洞察を得ることができるアプリケーションを作成できる機能。セットアップ時にSemantic Modelを指定することで、組織固有の用語やデータモデリング構造に関する情報を踏まえた回答が可能となる ※まもなくパブリックプレビュー
Empower more teams to use AI
この章では、より多くのユ-ザーにAIの活用を促すための新機能について言及がされています。
- Snowflake AI & ML Studio:Snowsightからアクセス可能な、ノーコードでLLMやMLを用いたアプリ開発が行える機能がまとまった画面。 ※プライベートプレビュー
- Snowflake Notebooks:PythonとSQLを用いて対話的なセルベースのプログラミング環境 ※パブリックプレビュー
- Document AI:Arctic TILTを使用して、請求書の金額や契約条件などのコンテンツをPDFなどのドキュメントから簡単に抽出できる機能。 ※まもなく一般提供
Making custom generative AI secure and easy
この章では、Snowflake Cortex fine-tuningとCortex Guardについて言及されています。
- Snowflake Cortex fine-tuning:MistralやLlama3など既存のLLMに対してパラメータを調整することができる機能。Snowflake Model Registryを使用して定義されたポリシーを使用して他のユーザーと共有可能 ※パブリックプレビュー
- Cortex Guard:生成AIアプリを開発する際に、Llama Guardを使用した、暴力や憎悪、自傷行為、犯罪行為などのコンテンツをフィルタリングできる機能 ※まもなく一般提供
Expedite and scale feature and model operations
この章では、Snowflake Horizon ML Lineage、Feature Store、Model Registryについて言及されています。
- Snowflake Horizon ML Lineage:Snowsightで、テーブルから構築したModelまでのリネージを可視化出来る機能 ※プライベートプレビュー
- Feature Store:Snowflake MLのパイプライン上で使用可能な特徴量を定義・管理するための機能 ※パブリックプレビュー
- Model Registry:トレーニング済みのML Modelを管理できる機能。弊社のブログもあります ※一般提供
公式ブログ:Simplified End-to-End Development for Production-Ready Data Pipelines, Applications, and ML Models
Simplified End-to-End Development for Production-Ready Data Pipelines, Applications, and ML Models
Streamlined development across SQL and Python
この章では、Snowflakeでの開発を簡素化するための各機能について言及されています。
- Snowflake Notebooks:PythonとSQLを用いて対話的なセルベースのプログラミング環境 ※パブリックプレビュー
- Snowflake CLI:コマンド操作で、Native Apps、Snowpark、Snowpark Container Servicesに関するワークロードを構築・デプロイできる機能 ※まもなく一般提供
- Python API:Python経由でSnowflakeオブジェクトを操作できる機能。 現在は、タスク/DAG、Snowpark Container Services、テーブル、ウェアハウス、スキーマ、データベースをサポート ※まもなく一般提供
Embrace declarative and dynamic data pipelines with automated orchestration
この章では、タスクやDynamic Tableなどのパイプラインに関する機能や、Git周りについて言及がされています。
- Serverless Tasks for Python:サーバーレスタスクでPython処理も定義できるようになる機能 ※プライベートプレビュー
- Serverless Tasks Flex:パフォーマンスではなくコストに最適化されたサーバーレスタスク。最大で42%コストダウンとなる。 ※プライベートプレビュー
- Triggered Tasks:ストリームの有無に沿って実行できるイベントドリブンのタスク ※パブリックプレビュー
- Tasks Backfill:タスクグラフ内の履歴データ処理を自動化できる機能 ※プライベートプレビュー
- Dynamic Tables by supporting lower latency (<10 seconds) for streaming data processing:10秒以内の低レイテンシの更新が可能なDynamic Table ※プライベートプレビュー
- Dynamic TableのSnowflake managed Iceberg tablesのサポート ※パブリックプレビュー
- CREATE or ALTERコマンドを用いたDatabase Change Management:Gitリポジトリあるいはステージに保存したDDLスクリプトを用いて、必要な変更を自動的に適用することが出来る機能 ※パブリックプレビュー
- Snowflake CLI GitHub Actions:Snowflake CLIに対応したGitHub Action ※パブリックプレビュー
※タスク周りについては、下記の@mt_musyuさんの投稿も大変参考になりました。
最大42%安くなるServerless Task Flexは通常のServerless Taskと比べて起動時間が遅くなりがち。ただ安い。
バッチ処理に向いている#SnowflakeSummit #DataCloudSummit pic.twitter.com/cZSIq4tn8j— Muguruma, Koki (@mt_musyu) June 4, 2024
Unveiling deep observability: Introducing Snowflake Trail
この章では、Snowflake Trailについて説明がされています。
- Snowflake Trailは、Observabilityの機能をSnowparkとSnowpark Container Servicesに拡張し、開発者がSnowparkのコードとリソースの使用状況を可視化できるようにした機能
- 追加のデータ転送や複雑なセットアップが不要でログデータを取得できるため、開発者はメトリクスやログを使用して簡単に調査・管理でき、アラートや通知ツールに送信も可能
- Datadog、Grafana、Metaplane、PagerDuty、Slackなどとの統合も可能
YouTube:Demo: Snowflake For Application Development | Summit 2024
この動画では、Snowpark Container Services、Snowflake Native Apps、Hybrid Tablesを用いたAIアプリケーションの開発についてデモが行われています。
シナリオとしては、通信会社が電波塔を建築する際に役立つアプリケーション開発に関するデモンストレーションとなっています。
- Snowpark Container Serviceを使って画像生成AIアプリケーションを実装
- HYBRID TABLEを用いることにより、各電波塔のステータスを更新して地図上の表示も即時反映可能
- Universal Searchで「RelationalAI」のアプリケーションを検索しインストールし、Streamlitのアプリケーションに適用
- これまでのデモで話した内容をテキストに書き起こし、要約するアプリケーション(バックエンドにはSnowpark Container ServicesでGPUを使用)
- CREATE OR ALTERコマンドによるDatabase Change Managementで、カラムの追加にも柔軟に対応。VS CodeでDDL文を変更しリポジトリにプッシュされると、GitHub Actionsのジョブが実行されてテーブルにカラムが追加される
YouTube:Demo: LLM Serverless Fine-Tuning With Snowflake Cortex AI | Summit 2024
この動画では、Snowflake Cortex AIを用いたLLMのFine-Tuningについてデモを行っています。
シナリオとして、顧客からのサポートチケットの分類作業を、Snowflake Cortex AIで自動化する中で、Fine-Tuningがどのように行えるか説明しております。
- Snowflake Notebooksでサポートチケットのデータを確認
- LLMを用いたチケット分類の自動化。しかしこれはコストがかかる
- 別の、よりサイズとコストが小さいモデルでのチケット分類の自動化。しかし精度がよくない
- そこでFine-Tuningを行う。Snowflake AI & ML Studioから行うことで、ノーコードでFine-Tuningが可能
- Fine-Tuning後、約30分経過後にFine-TuningされたModelで精度を確認。よりサイズとコストの小さいModelをベースにしていたが、精度が向上している
- 自動でメールのメッセージを生成するStreamlitアプリケーションも実装
YouTube:Demo: Build A RAG Application With Snowflake Cortex Search | Summit 2024
この動画では、Snowflake Cortex Searchを用いて、RAGアプリケーションの構築についてのデモンストレーションを行っています。
シナリオとして、HRポリシー、旅行情報など、数千ページのドキュメントを元にしたアシスタントサービスを構築しています。
- Snowflake AI & ML Studioから「Create a Cortex Search Service」で構築開始
- Stageを選択して、数千個のドキュメントが保存されていることを確認。取り急ぎ構築する流れを見せるため、4つのドキュメントを持つステージを選択
- ソースデータの確認頻度を設定し、Search Serviceの構築が開始される
- Serviceが構築されたら、チャットボットを起動できる。問い合わせると、回答が得られるだけでなく、参考にしたドキュメントも見ることが出来る
- 一方で、ドキュメントから回答が得られない場合には「I don't know」と回答が返ってくる
- デモの冒頭で少し見せた、数千のドキュメントを保持するステージを選択して構築したServiceを使ってみる(事前に構築済)。ドキュメント上に表があっても問題なし
YouTube:Demo: Snowflake Horizon | Summit 2024
この動画では、Snowflake Horizonに関するデモンストレーションを行っています。
- Internal Marketplaceは、外部公開していない組織内限定のデータやアプリケーションの一覧を見ることが出来る
- Universal Searchを使うことで、Internal Marketplace内のデータやアプリケーションであっても問題なく自然言語で検索可能
- Internal Marketplaceでデータをプレビューした際に、機密データをマスキングして表示させることも出来る
- Snowflake Copilotに対して、Internal Marketplaceで公開されているデータに対しての質問をすることも可能
- 各テーブルのGovernanceタブで、どのカラムが自動的にSensitiveに分類されているか、テーブルに対してどんなクエリが投げられているか、誰がよくこのテーブルにアクセスしているか、対象のテーブルリネージ、を確認可能
- テーブルのDescriptionのAIによる自動生成も可能
その他
私はよくXで情報収集をしているのですが、dbt CloudがSnowflake Native AppsとしてMarkeplaceで提供されるということも発表されていました。
見た感じはdbt CloudのEnterpriseと同じ仕様、という印象を受けましたね。
USリージョンだとGetできるようになってましたよ!年間$5000だそうです。1日の無料トライアルもあるようです。みんなでリクエストして東京リージョンも対応してもらいましょうー pic.twitter.com/uq7W1ip0wD
— Shota Asano@Snowflake japan (@ShotaAsanoSnow1) June 4, 2024
最後に
Data Cloud Summit 2024の「PLATFORM KEYNOTE」で発表された内容に関する公式のリリースノート・ブログ・YouTubeの内容をまとめてみました。
毎年ですが、「おおっ!」と思わせてくれる新機能をたくさん出してくれて嬉しいですね。特にSnowflake Cortex SearchやSnowflake Cortex AIを用いたLLMのFine-Tuningなど、専門のエンジニアでなくても簡単にLLMサービスを構築できるようになるのがとても熱いなと感じました!