2022/11/30(ラスベガス)のSageMakerアップデートまとめ #reinvent

2022.12.02

データアナリティクス事業本部の鈴木です。

2022/11/30(ラスベガス)にSageMakerに関するリリースが多くありましたので、まとめブログの形でご紹介します。

現在開催中のAWS re:Invent 2022のうちSwami Sivasubramanian Keynoteでは、データ分析・機械学種が中心に紹介されましたが、関連してWhat's NewやAWS BlogでもSageMakerに関連する内容が多い日になりました。簡単な説明と一緒に、アップデート情報についてまとめましたのでご紹介します。

アップデート覧

Geospatial ML(プレビュー)のサポート

SageMakerで、地理空間データを使ったMLモデルの構築、トレーニング、デプロイまでを容易に実施することができるものとなっています。keynoteでも取り上げられた機能です。keynoteのデモでは、水害発生時の被害・避難経路確認を目的に、地理データからどこが水没していてどこが大丈夫かセグメンテーションしたり、避難・救助の最適なルートを発見していました。

発表時の内容やkeynoteの様子は、以下のブログで速報としてご紹介しました。

デモのような災害時の活用では、日本でも大きなニーズがあると思います。keynoteのデモは用途の1例と思うので、実際に試してみながらどのような活用ができそうかみていきたいですね。

MLガバナンスツールの追加

こちらもkeynoteで紹介がありました。SageMakerのコンソールから3つのガバナンス機能を新しく利用できるようになりました。具体的には、機械学習プロジェクトに関与するメンバーへの権限管理機能と、モデル情報の文書化をサポートする機能、まとめてモデルに関する情報を監視できる機能になります。

私の方で速報としてブログ記事を書いていますのでよければご参照ください。

MLプロジェクトを進めていく上で、多くのユーザーが困るであろう点にアプローチした機能です。開発・運用に取り入れつつ、改善効果を確認していきたいです。

SageMaker Studioの新しいUI

SageMaker Studioについては、新UIがリリースされ、re:Inventで発表になった新機能も含めて整理された状態になりました。

新しいUIの見方については、以下のブログで早速確認しているので、参考にして頂ければと思います。

SageMaker Data Wranglerが40以上のサードパーティーのデータソースをサポート

AppFlowのデータソースの追加に関連して、SageMaker Data Wranglerでも40以上サードパーティー向けのデータソースに対応しました。これにより、Data Wranglerを使って進める機械学習プロジェクトの対象が大きく増えました。このサービスに入っているデータを使ってみたいけど、データを連携するための開発が大変なので手がつけられていなかったというケースはとても多いと思うので、この機能を使ってぜひ試してみたいですね。

SageMaker Data Wranglerがノートブック内のビルトインのデータ前処理に対応

SageMaker Studio notebookのJupyter NotebookにSageMaker Data Wranglerで定義した処理をエクスポートする際に、データを元にData Wranglerの画面上でどのような前処理が必要そうか(欠損値があるので埋めるなど)提案し、UIからそれを選択することで、ノートブックにも対応するコードを出力してくれるようになりました。

前処理のコードは人によって書き方も若干違うかったり、使っているライブラリの細かいAPIを知ってないといけなかったりしてややこしいので、Data Wranglerから出してくれるのはすごくよいですね。

Amazon SageMaker Studioが共同編集機能をサポート

SageMaker Studioで共有スペースを作成することで、MLプロジェクトの複数のユーザーが同じノートブックにリアルタイムでアクセスし、内容の共有・編集することができるようになりました。チームで開発やレビューをするときに捗りそうです。

具体的な内容は前述の『Next Generation SageMaker Notebooks – Now with Built-in Data Preparation, Real-Time Collaboration, and Notebook Automation』で紹介されています。

Amazon SageMaker JumpStartで、組織内で機械学習モデル・ノートブックを共有可能に

SageMaker JumpStartで、学習したモデルやノートブックを組織内にて共有できるようになりました。ほかの人が共有されたモデルをみて、どんなモデルなのか分かるような情報も一緒につけることができるようなので、組織内での機械学習モデル・コードの共有にとてもよさそうです。

Amazon SageMaker Partnersの紹介

Amazon SageMakerを使ってお客様の機械学習ソリューションの構築を支援する世界トップクラスのAWSパートナーが検索できるようになりました。Amazon SageMaker Ready SpecializationはAmazon SageMakerとの製品統合に関する高い技術的水準をクリアし、顧客からの成功が実証されたAWSパートナーを認定するものになります。

SageMaker Data Wranglerのデータ変換パイプラインを、推論パイプラインの一部としてデプロイできるように

SageMaker Data Wranglerからリアルタイムおよびバッチ推論用のフローを、推論パイプラインの一部としてデプロイできるようになりました。SageMaker Data Wranglerで作成したフローを、推論パイプラインのステップとして再利用することができます。

Data Wranglerの処理ジョブを実行する際に、Sparkのメモリ構成や出力のパーティション形式を簡単に設定して、より大きなデータに対しても処理を行うことができるようになりました。バッチまたはリアルタイム推論アプリケーションの推論パイプラインの一部として、データ変換パイプライン(「データフロー」とも呼ばれる)にMLモデルとともにデプロイもできます。また、Data WranglerのデータフローはSageMaker Model Registryに登録することもできます。

SageMakerがshadow testingをサポート

shadow testingで、本番デプロイ前にモデルの性能を確認することができるようになりました。

DevelopersIOでも解説記事を公開しました。

今までもマルチエンドポイント構成とすることで、2種類のモデルで処理することは可能であったのですが、 明示的に本番稼働中とshadow testing側を分けて考えられること、モニタリング機能で2種類のモデル比較が可能となったことで、よりshadow testingが容易になりそうです。

SageMaker PipelinesからAutopilotの実行ができるように

Amazon SageMaker Autopilotが、ML向け継続的インテグレーションおよび継続的デリバリー(CI/CD)サービスである「Amazon SageMaker Pipelines」に統合されました。これにより、SageMaker Pipelinesに自動学習ステップ(AutoMLStep)を追加し、Ensemble学習モードのSageMaker Autopilotの実行を行うことができるようになりました。

Amazon SageMaker StudioでJupyter Notebookをバッチジョブに変換可能に

ノートブックのコードを本番環境に対応したジョブに自動変換する機能になります。これにより、Jupyter Notebookをそのままバッチジョブとして扱うことができます。

DevelopersIOでも解説記事を公開しました。

Notebookをジョブに変換できる機能はとても便利そうです。特にスケジュール実行などにも対応しており、とりあえず運用していきたいときなど、SageMakerの機能で定期実行させられるのでとても使いやすそうです。

AWS Machine Learning Universityの発表

すべての大学の教員に無償のカリキュラム、コンピューティング開発環境、通年の教育者支援プログラムを提供するそうです。

最後に

2022/11/30(ラスベガス)にあったSageMakerに関するリリース情報まとめでした!

Swami Sivasubramanian KeynoteではGeospatial ML・ML governance・Data Wranglerのデータソース追加を中心に紹介されていましたが、それ以外にもたくさんの機能追加がありました。

引き続き検証結果などをDevelopersIOにてお届けできればと思います!