[レポート]Snowflake MLを活用したエンドツーエンドの機械学習ワークロードのスケーリング #SWTTokyo25

[レポート]Snowflake MLを活用したエンドツーエンドの機械学習ワークロードのスケーリング #SWTTokyo25

Snowflake MLは、データ移動を一切行わずに高度なモデルの効率的な開発と展開を可能にします。マルチGPUサポート、MLOps統合、Gitベースのワークフローを備えたContainer Runtimeは、トレーニング用のスケーラブルな環境を提供し、Snowflake MLの製品であるModel RegistryやModel Servingを活用することで、これらのモデルを本番環境へ容易に展開できます。本セッションでは、SnowflakeにおけるスケーラブルなMLワークフローのベストプラクティスと、本番環境対応のMLパイプラインの構築方法について解説します。 ※SNOWFLAKE WORLD TOUR 2025 イベントサイトより抜粋
2025.09.15

かわばたです。

2025年9月11日~2025年9月12日に、「SNOWFLAKE WORLD TOUR 2025 - TOKYO」が開催されました。

本記事はセッション
【Snowflake MLを活用したエンドツーエンドの機械学習ワークロードのスケーリング】
のレポートブログとなります。

登壇者

Snowflake
第4ソリューションエンジニアリング本部
シニアソリューションエンジニア
河上 伸一氏

機械学習ライフサイクル

2025-09-14_21h04_53

従来のMLライフサイクルの課題

2025-09-14_21h05_45

  • 従来は、各ステップごとに様々なツールを使い分ける必要があった。
  • 例:データ準備にSnowflake、モデル開発にJupyter Notebook、推論にDocker、モニタリングにサードパーティーツールのような形。
  • データの移動が発生したり、管理が煩雑になったりするという課題がある。

2025-09-14_21h09_49

  • Snowflake内のパイプラインで実行するための一連のメソッドがある。

各機能について以下で解説します。

データ探索から特徴量エンジニアリングまで

Snowflake Notebooks コンテナランタイム

2025-09-14_21h23_41

  • コンテナサービス上で操作する構築済みのPython環境です。
  • UIもしくはコードで作成でき、SQLとPythonの両方を使用できます。
  • 主な利点は、Snowflakeのサーバーサイド機能と統合されていることです。

2025-09-14_21h32_06

Snowflake特徴量ストア

2025-09-14_21h33_06

  • SnowparkデータフレームAPIやSQLを組み合わせて特徴量変換を定義し、変換と特徴量ビューを保存し、バージョン管理できます。

2025-09-14_21h38_34
上記図はMLオプションにおいてSnowflakeのAPIを活用した開発から本番環境への移行プロセスを説明しています。
ポイントは、既存のCI/CDのプロセスやコード管理のプロセスを変更する必要がないこと。

Snowpark ML API & OSS

Snowflakeモデルトレーニング

2025-09-14_21h44_18

  • 従来もウェアハウス内でモデルをトレーニング・推論することは可能でしたが、新たにNotebookからコンテナランタイムを使用することでコンピューティングプール内で直接モデルをトレーニングすることが可能になりました。

コンテナランタイム

2025-09-14_21h51_17

  • コンテナランタイムの利点は、機械学習に特化した柔軟な計算環境であること。
  • カスタマイズ可能な事前構築済みの環境を提供しているためpip installが可能。

【公式ドキュメント】
https://docs.snowflake.com/ja/developer-guide/snowflake-ml/container-runtime-ml

2025-09-14_22h08_18

  • Data ConnectorはSnowflakeのソースからデータを効率的に、かつ遅延処理によってメモリ内にロードします。
  • この処理は制御された分散方式で実行されるため、大量のデータであってもメモリが溢れることはなくメモリ内に収まるように設定されている。

Snowflakeモデルレジストリ

2025-09-15_07h43_52

  • pipの依存関係を内部に含めることができます。
  • モデルレジストリを作成しておくことで、デプロイに必要な全ての要素をモデルレジストリにまとめておくことが可能になります。

モデルレジストリからのモデル推論

2025-09-15_07h49_57

  • モデルレジストリを活用し、そのモデルをウェアハウス、またはSnowflakeのコンテナサービス内にデプロイできる。
  • 特にコンピュートプール上で実行された推論がある場合非常に有効です。

下記記事も参考になると思うのでご確認ください。

https://dev.classmethod.jp/articles/snowsight-model-registry-spcs-model-serving-snowsight/

リネージとオブザーバビリティによるモデル監視

リネージ

2025-09-15_07h58_38

  • Snowparkのデータフレームを使ってモデルをトレーニングすると、リネージが標準で提供している。
  • 最終的にデータがどのように繋がっているか視覚的に追跡可能です。

MLモデルへのオブザバビリティ

2025-09-15_20h13_09

最後に

Snowflake上でエンドツーエンドに機械学習を行うための機能紹介セッションでした!
Snowflakeだけですべてが完結するのは改めて凄いですし、そこに価値があるなと感じました。
かわばたはまだこれらの機能を試せていないので、実際に試してみたいと思います。
この記事が何かの参考になれば幸いです。

この記事をシェアする

FacebookHatena blogX

関連記事