MLワークフローを「AWS Step Functions」でサーバレスに管理する:Amazon SageMaker Advent Calendar 2018

StepFunctionsでMLワークフローの管理をしてみる

データ分析クラスメソッド Amazon SageMaker Advent Calendar 2018

yoshim

2018.12.10

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

概要

こんにちは、データインテグレーション部のyoshimです。
この記事は「クラスメソッド Amazon SageMaker Advent Calendar」の10日目の記事となります。

今回はSageMakerを含めたMLのJOBワークフローを「AWS Step Functions」を使ってサーバレスで管理してみます。「MLワークフローをサーバレスに管理することで何が嬉しいのか」という点については、個人的には下記の3点がメリットになるかと思います。

運用が楽

JOBフローが可視化されるのでわかりやすい（今回利用するStepFunctionsを使うとJOBフローが可視化される）

JOB稼働時間のみの課金なので、コスト削減に繋がる

色々と嬉しいことがありますね。今回はserverless-sagemaker-orchestrationにサンプルの構成図があったので、東京リージョンで構成してみました。
MLワークフローの「全体の一部分のみしか自動化できていない」ものの、一部修正すれば既存のシステムとも組み合わせやすそうで、いい構成だと思います。

参考:新発表 – AWS Step Functions がコンピュート、データベース、メッセージング、アナリティクス、機械学習のサービスと統合
参考:serverless-sagemaker-orchestration

1.構成図

今回実装する構成図は下記の通りです。
引用:serverless-sagemaker-orchestration

この構成で「線形回帰モデル」を「スケジュールを指定して」、「利用するデータを指定して」、「新しいモデルを学習・推論用エンドポイントとしてデプロイ（UPDATE）」する工程をサーバレスに管理してみようと思います。

ただ、この構成図だけだと処理フローがよくわからなかったので、引用元を参考に処理フローをざっくり日本語訳してみました。
1.「CloudWatch Events」がスケジュールされたタイミングで「Step Functions」の「state machine」を起動する
2.「state machine」がS3をチェックし、学習に利用するデータを判別し、SageMakerの学習JOBを作成する
3.「State machine」が学習JOBの終了まで待機する
4.学習JOBが終了したら、「State machine」が最新のモデルをエンドポイントにデプロイする。
5.「State machine」がデプロイ終了まで待機する
6.「State machine」がSlackに学習・デプロイに関する情報を通知する
引用:serverless-sagemaker-orchestration

雰囲気は掴めましたが、まだもう少し詳細を把握したいところですね。続いて、各処理についてもう少し細かく見ていきます。

2.JOBフローの詳細

この構成では、各JOBフローを如何に捌くか、が重要です。
なので、今回必要となる「State machine」についてもう少し詳細を見てみましょう。
なお、ここでの説明もserverless-sagemaker-orchestration をざっくり日本語訳したものです。

CheckData

「S3に新しく追加されたデータをチェックし学習に利用するファイルを判別する」部分です。AWS Systems Manager パラメータストアを使って、対象のファイルを選別します。
もし対象のデータが存在する場合はS3に「manifestファイル」をアップロードし、モデル学習時にこのファイルを参照します。
もし対象のファイルが存在しない場合は、構成図の「NoNewData」に移動し処理を終了します。

StartTrainingJob

S3にアップロードされた「training manifest」を参照して、学習を開始します。
学習を実行した後は次の「NotifySlack」に移ります。

NotifySlack

登録したSlackのチャンネルにmessageを通知します。通知した後は「NotifySlackBranch」に移ります。

NotifySlackBranch

学習・デプロイJOBのステータスを監視し、ステータスによって次に何を実行するかを判断します。学習JOBが実行中なら「CheckStatusWait」、失敗したら「JobFailed」、成功したら「JobCompleted」に移動します。また、デプロイJOBが失敗したら「DeploymentFailed」、成功したら「DeploymentCompleted」に移ります。

CheckStatusWait

「指定した時間」ごとに「GetStatus」ステップに移ります。今回は60秒ごとに「GetStatus」ステップに移るようにしました。

GetStatus

学習・デプロイJOBのステータスを確認した後に「CheckStatusBranch」ステップに移ります

CheckStatusBranch

学習・デプロイJOBのステータスから、次に移動するステップを判断します。
もし学習・デプロイJOBが「終了 or 失敗」した場合は「NotifySlack」ステップに移ります。それ以外の場合は「CheckStatusWait」ステップに移ります

JobCompleted

学習JOBが終了したことを明示的にするためのステップです。「DeployModel」ステップに移ります

DeployModel

学習したモデルを推論用エンドポイントとしてデプロイします。
もし既にエンドポイントが存在するようならUPDATE,存在しないようなら新しくエンドポイントを作成し,「NotifySlack」ステップに移ります。
(このデプロイはダウンタイム無しで実行されます。)

DeploymentCompleted

デプロイJOBが終了したことを明示的にするためのステップです。「UpdatedParameters」ステップに移ります

UpdateParameters

「AWS Systems Manager パラメータストア」をUPDATEし、今回のJOBで利用したデータを記録します。その後、「End」ステップに移ります。

JobFailed

学習JOBが失敗したことを示します

DeploymentFailed

デプロイJOBが失敗したことを示します

3.処理の要点

「2.JOBフローの詳細」でちょっと細かいところまで確認してしまったので、ここで、「1.構成図」にて記述した各処理ステップの要点を再確認し、フローの全体図をなんとなく把握したいと思います。
今回の処理フローは下記の通りでした。
下記のフローを「具体的にどこでどのように制御しているか」を要点を絞って紹介しようと思います。

1.「CloudWatch Events」がスケジュールされたタイミングで「Step Functions」の「state machine」を起動する
2.「state machine」がS3をチェックし、学習に利用するデータを判別し、SageMakerの学習JOBを作成する
3.「State machine」が学習JOBの終了まで待機する
4.学習JOBが終了したら、「State machine」が最新のモデルをエンドポイントにデプロイする
5.「State machine」がデプロイ終了まで待機する
6.「State machine」がSlackに学習・デプロイに関する情報を通知する

3-1.「CloudWatch Events」がスケジュールされたタイミングで「Step Functions」の「state machine」を起動する

今回新規に作成した「step functions」のステートマシーンが「Cloud watch events」に登録されているので、スケジュールを指定しての実行が可能です。これを...

このようにすると、毎日朝9時に実行できます。(GMTなので東京の9時間遅れ)

時間指定ではなく、特定のイベントの後に実行させることもできます。
学習用ファイルの準備（前処理）JOBの後にこのイベントを実行させる、というのが一番いい流れだと思います。

3-2.「state machine」がS3をチェックし、学習に利用するデータを判別し、SageMakerの学習JOBを作成する

S3に格納されているファイル、manifestファイル、「AWS Systems Manager パラメータストア」から、学習に利用するデータを絞り込みます。
この絞り込む条件についても精査が必要なのですが、例えば「古いデータは現時点の社会を反映していない」という考えから「直近2年間分のデータのみを使う」、と絞り込みが可能です。
一概に「全期間分のデータをとりあえず使った方がいい」とはならないので難しいところですね。

3-3.「State machine」が学習JOBの終了まで待機する

「AWS Step Functions」のWaitを使って待機しています。
現在は60秒待機するようにしていますが、ここも修正可能です。

3-4.学習JOBが終了したら、「State machine」が最新のモデルをエンドポイントにデプロイする

今回のテンプレートファイルで作成したLambda関数の「deploy_model.py」の中で実行します。
エンドポイントの「インスタンスタイプ」、「インスタンス数」等を変更したい時は、Lamdaの「環境変数」を変更することで修正可能です。

3-5.「State machine」がデプロイ終了まで待機する

「3-3.「State machine」が学習JOBの終了まで待機する」と同様です。

3-6.「State machine」がSlackに学習・デプロイに関する情報を通知する

JOBの実行結果をSlackに通知してくれます。

これは今回のテンプレートファイルで作成したLambda関数の「notify_slack.py」の中で実行されています。
デフォルトだと通知しないように作成されるので、もしSlackでの通知が必要なようなら、「ENABLED」、「CHANNEL」、「ACCESS_TOKEN」の3つの環境変数を設定しましょう。

全体のフロー等、細かいことの説明は以上で終了です。
続いて、早速東京リージョンに実装していきます。

4.やってみる

Running the Exampleを参考に、早速やってみようと思います。

4-0.Slackのワークスペースを作成する

JOBの実行結果をSlackに通知させたい場合は、Slack側の準備が必要です。もし、Slackへの通知が不要なら「4-0.Slackのワークスペースを作成する」は読み飛ばしてください。

今回、私は既に作成していたワークスペースを利用しました。もしこれからワークスペースを作成する、という方はSlack ワークスペースを作成するの通りにワークスペースを作成しましょう。

続いて、「app」を作成します。

app名とSlackのワークスペース名を指定して、「Create app」をクリックします。

credential情報が確認できます。外部に漏れないように厳重に管理しましょう。

「OAuth & Permissions」をクリックします。

「Select Permission Scopes」に「chat:write:bot」と記述すると、対象のappに権限を付与できるので、選択した後に「Save Changes」をクリックします。

続いて、Appをワークスペースにインストールするために、「Install App」欄の「Install App to Workspace」をクリックします。

このAppはワークスペースに通知を送るよ、という確認をした後に「Authorize」します。

「OAuth Access Token」が発行されます。これも後ほど使うので控えておきましょう。

また、通知先の「Slackチャンネル」も控えておいてください。私は「general」に送ることとします。
以上で、Slackの準備は完了です。

4-1.cloudformationで一気に環境構築

ドキュメントには「コンソール画面上からcloudformationを使ってオレゴンリージョンに環境構築」するやり方と「手動で指定したリージョンに環境構築する」、2パターンのやり方を紹介していました。
折角なので今回は「手動で東京リージョンに環境構築」してみようと思います。

東京リージョンに手動で環境構築

手動とはいえ、基本的には「cloud formationテンプレート」を利用します。

まずは、東京リージョンに対象となるS3バケットを作成した後、ローカルPCの環境変数に下記をセットします。

S3BUCKET=[REPLACE_WITH_BUCKET_TO_UPLOAD_TEMPLATE_ARTIFACTS_TO]
REGION=[REPLACE_WITH_REGION_YOU_WISH_TO_DEPLOY_TO]
STACKNAME=[REPLACE_WITH_DESIRED_STACK_NAME]
SAGEMAKERROLE=[REPLACE_WITH_SAGEMAKER_EXECUTION_ROLE]
ATOKEN=[REPLACE_WITH_OAUTH_ACCESS_TOKEN]
CHANNEL=[REPLACE_WITH_SLACK_CHANNEL_NAME]

続いて、テンプレートファイルをcloneしてきます。　　

git clone https://github.com/aws-samples/serverless-sagemaker-orchestration.git
cd serverless-sagemaker-orchestration/cloudformation

「continuous_sagemaker.serverless.yaml」がポツンと存在しているので、このファイルをaws cloudformation packageコマンドを使ってS3にアップロードします。

hoge:cloudformation yoshim.dayo$ ls -l
total 32
-rw-r--r--  1 yoshim.dayo  staff  13850 12  5 19:09 continuous_sagemaker.serverless.yaml

aws cloudformation package --region $REGION --s3-bucket $S3BUCKET --template continuous_sagemaker.serverless.yaml --output-template-file continuous_sagemaker.output.yaml

すると、S3の指定したバケット,ローカルPCに新しくファイルが作成されるので、これらを元にスタックを作成できます。

hoge:cloudformation yoshim.dayo$ ls -l
-rw-r--r--  1 yoshim.dayo  staff  14041 12  5 19:15 continuous_sagemaker.output.yaml
-rw-r--r--  1 yoshim.dayo  staff  13850 12  5 19:09 continuous_sagemaker.serverless.yaml

下記のコマンドで、新しく作成されたファイルをもとにスタックを作成できます。

aws cloudformation deploy --region $REGION --template-file continuous_sagemaker.output.yaml --stack-name $STACKNAME --capabilities CAPABILITY_NAMED_IAM --parameter-overrides SageMakerExecutionRole=$SAGEMAKERROLE SlackAccessToken=$ATOKEN SlackChannel=$CHANNEL

私が実行した際は「S3バケットが既に存在している」とエラーが出ました。どうやら「continuous_sagemaker.output.yaml」でも先ほどと同名のS3バケットを作成しようとしていたようです。
なので「continuous_sagemaker.output.yaml」の下記の部分をコメントアウトして、再実行したところうまくいきました。

こんな感じにコメントアウト

  #S3Bucket:
    #Properties:
      #BucketName:
        #Ref: BucketName
    #Type: AWS::S3::Bucket

4-2.学習の準備

続いて、SageMakerノートブックインスタンスを立ち上げ、データセットをS3バケットにアップロードします。
基本的にUploading Training Dataを参考に作業を進めていきます。

まずは、東京リージョンのノートブックインスタンスに「serverless-sagemaker-orchestration.ipynb」をアップロードします。
このファイルは、先ほどcloneしてきたリポジトリ内にあります。

続いて、ノートブックインスタンス上で「serverless-sagemaker-orchestration.ipynb」を開きます。
下記のS3バケットを先ほどから利用しているバケットに修正して、実行してサンプルデータをS3に配置します。

num_days = 3 # number of days to split housing prices data into.
model_name = 'LinearLearner-HomePrices' # If you modified the ModelPrefix CloudFormation template change this to the value you modified it to be.

bucket = '<NAME OF YOUR BUCKET HERE>'  # Set this to the name of bucket created by CloudFormation template. Can be found in the output of the template.
prefix = 'data/{}/train'.format(model_name)

role = get_execution_role()
region = boto3.Session().region_name

boston = load_boston()
target = boston.target
data = [np.ndarray.tolist(row) for row in boston.data[:, :]]

# Add target value as first column as expected by training algorithm
training_set = [[row[0]] + row[1] for row in zip(target, data)]

# Split data into seperate datasets for each day
train_by_day = split_data_by_days(training_set, num_days)

# Upload split datasets to S3
for day in range(num_days):
    current_date = date.today() - timedelta(day)
    key = '{}.csv'.format(current_date)
    write_to_csv(key, train_by_day[day])
    s3_uri = 's3://{}/{}/{}'.format(bucket, prefix, key)
    print('Uploading {} to {}'.format(key, s3_uri))
    boto3.resource('s3').Bucket(bucket).Object(os.path.join(prefix, key)).upload_file(key)

このように、S3パスにサンプルデータが配置されます。

4-3.手動実行して稼働確認

続いて、手動でJOBを実行させてみます。
もしエラーが出る場合は、cloudWatchのログから原因を調査する必要があります。
私は下記の4点を修正しました。

「Lambda関数にセットされているIAMポリシー」を修正して「今回利用するS3バケットにアクセスできるようにする」

トレーニングJOB名を「実行する度に変わる」ように修正。具体的には、「ServerlessSageMakerOrches-StartTrainingJobFunction」のLambda関数の「start_trainning_job.py」を修正。

「Lamda」の「ServerlessSageMakerOrches-StartTrainingJobFunction」関数の「start_training_job.py」に東京リージョンのコンテナを追加

Slackへの通知をするように、環境変数の「ENABLED」、「CHANNEL」、「ACCESS_TOKEN」をLambdaの環境変数に設定

CONTAINERS = {'us-west-2': '174872318107.dkr.ecr.us-west-2.amazonaws.com/linear-learner:latest',
              'us-east-1': '382416733822.dkr.ecr.us-east-1.amazonaws.com/linear-learner:latest',
              'us-east-2': '404615174143.dkr.ecr.us-east-2.amazonaws.com/linear-learner:latest',
              'eu-west-1': '438346466558.dkr.ecr.eu-west-1.amazonaws.com/linear-learner:latest',
              'ap-northeast-1': '351501993468.dkr.ecr.ap-northeast-1.amazonaws.com/linear-learner:latest'}

コンテナは下記で調べました。

import boto3
from sagemaker.amazon.amazon_estimator import get_image_uri

container = get_image_uri(boto3.Session().region_name, 'linear-learner')
print(container)

「Step Functions」のコンソール画面上からは、このようにJOBの過程も確認できます。

ちょっとづつJOBが進んでいく...。今はモデルを学習して、1分ずつステータスを確認しているところですね。

モデルの学習が終わって、デプロイしているようです。

SageMakerの画面に移っても、当然デプロイしているところが確認できます。

デプロイが終わるとこんな感じです。

ちゃんと推論用エンドポイントがデプロイされていました。

S3を確認してみたところ、トレーニングデータが格納されているパスに「manifest」ファイルが生成されていました。
次回の学習時には、この「manifest」ファイルを参照し、「次の学習に利用するデータ」を判別します。

このファイルは、「CheckData」ステップで「今回のJOBに利用したファイル」を記録して出力しているものです。
このファイルの詳細については「2.JOBフローの詳細」をご参照ください。

JOBの実行が完了するとAWS Systems Manager パラメータストアが更新され、「学習に利用したトレーニングファイルの最新日付」を値として保持します。
次のJOB実行時は「CheckData」ステップで、この値とS3に実際に保存されているファイルを突合させて、学習に利用するファイルを判別し、その結果をmanifestファイルとして出力し、モデル学習時にそのmanifestファイルを参照する、という流れになります。

また、Slackへの通知を確認してみると、下記のように通知が来ていることが確認できます。

5.まとめ

MLのワークフローを,一部とはいえサーバレスで実現することができました。
運用の簡易化、フローの可視化、コスト削減、等色々とメリットが考えられるこの構成ですが、「あくまでも機械学習のJOBフローのほんの一部」しか管理できていない点にはご注意ください。
ただ、それでもこの構成はMLワークフローの手間やコストを大いに削減してくれて、更に拡張性もあるいい構成だと思います。

かなり長くなってしまいましたが、本エントリーの内容は以上になります。最後までありがとうございました。