Amazon SageMakerのガバナンス機能を使ってみる

re:Invent2022で発表のあった、モデルダッシュボードとモデルカードを使ってみました。

クラスメソッド機械学習チームアドベントカレンダー 2022

AWS re:Invent 2022

アドベントカレンダー2022

#Amazon SageMaker

#機械学習

#AWS

nayu.t.s

2022.12.16

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

データアナリティクス事業本部の鈴木です。

『クラスメソッド機械学習チームアドベントカレンダー 2022』の16日目のエントリーになります。

昨日はAmazon Textractの再入門でした。

本日はAmazon SageMakerです。

re:Invent2022では、ラスベガスからSwami Sivasubramanian Keynoteに参加して、Amazon SageMaker ML Governanceの発表をお伝えしましたが、帰国して少し時間ができたので、実際に一部機能を試してみました。

発表されたガバナンス機能は、「ロールマネジャー」「モデルダッシュボード」「モデルカード」ですが、今回は後の２つがどんな感じか、特にモデルカードを中心にご紹介します。

UI上でのガバナンス機能の利用について

SageMakerでのUI上では、以下のガバナンスメニューから新しい機能を使用できるようになっています。

ガバナンスメニュー

モデルダッシュボードは、モデルの情報を一元的に監視を行う機能、モデルカードはモデル情報をプロジェクトで共有するための文書を作成できる機能なのでした。

より詳細は、以下のドキュメントを参照ください。

準備

参考にするチュートリアル

まずはモデルダッシュボードとモデルカードで表示するためのモデルを作成していきます。なお、ここは検証を再現しやすいように記載したので、ガバナンス機能だけ使いたい方は飛ばして頂いて問題ありません。

今回は、以下のチュートリアルのステップ３までを実行して、モデルを作成してみました。

ステップ３までは以下のことを行います。

SageMakerノートブックインスタンスの作成
データの準備
データから学習するためのモデルのトレーニング

ステップ４以降はやりません。

使用するデータは、チュートリアルに記載がありますが、Bank Marketing Data Setで、このデータを使って２値分類問題を解くためのモデルを訓練することになります。

モデルの作成

チュートリアルに沿って進めていきますが、やったことや少しアレンジしたことを記載します。

ステップ１

データ準備用のノートブックインスタンスを作成します。今回は東京リージョンで実施しました。

ノートブックインスタンスからノートブックインスタンスの作成を押します。

ノートブックインスタンスの作成１

ノートブックインスタンス設定で、ノートブックインスタンス名とノートブックインスタンスのタイプを入力しました。インスタンスタイプはチュートリアルとは異なるml.t3.mediumを選びました。今回は大きな理由はありませんが、On-Demand Pricingでほとんど価格が変わらないことが分かっているので、新しい世代にしました。

ノートブックインスタンスの作成２

その下のアクセス許可と暗号化では、新しいIAMロールを作成して設定しました。ほかはデフォルトでノートブックインスタンスの作成を押します。

ノートブックインスタンスの作成３

なお、IAMロールの作成画面は以下のような感じでした。チュートリアルでも説明がありますが、今回はS3バケットへの権限をそこまで絞るつもりもなかったので、任意のS3バケットに対してアクセスすることを許可して作成しました。

ノートブックインスタンスの作成４

ステップ２

モデル作成に使うデータの準備を進めます。ノートブックインスタンスのステータスがInServiceになったら、Jupyterを開くをクリックしてノートブックを作成していきます。

Jupyterを開く

Jupyterの画面が表示されるので、Newからconda_python3を選択して、ノートブックを作成します。

ノートブックの作成

順番にチュートリアルのコードを入力して、実行していきます。一部自分で入力するところがありますが、チュートリアルのコードが非常にスムーズに動作するのでとてもありがたいです。

実行するコード１

ここは、S3バケットの名前を自分で入力して実行します。

実行するコード２

以下のようにS3バケットが作成されました。

できたS3バケット

データを取得して加工し、S3バケットにアップロードします。

実行するコード３

このような形でデータが作成されました。

作成されたデータ

ステップ3

機械学習モデルをトレーニングします。

こちらもチュートリアル通りにモデルを作成しますが、使用する手法はXGBoostで、binary:logisticを使って学習します。

sess = sagemaker.Session()
xgb = sagemaker.estimator.Estimator(xgboost_container,role, instance_count=1, instance_type='ml.m4.xlarge',output_path='s3://{}/{}/output'.format(bucket_name, prefix),sagemaker_session=sess)
xgb.set_hyperparameters(max_depth=5,eta=0.2,gamma=4,min_child_weight=6,subsample=0.8,silent=0,objective='binary:logistic',num_round=100)

実行が終わると、モデルが作成されます。