Developers.IO 2020 ConnectのDay4でAmazon SageMakerに関するライブセッションを担当しました #devio2020

2020.06.26

データアナリティクス事業本部の貞松です。期末の多忙と格闘中です。

2020/6/17〜2020/7/7の期間で、クラスメソッドの年次技術イベント「Developers.IO 2020 CONNECT」が開催されています。

Developers.IO 2020 CONNECT

私は本日(2020/6/26)のDay4に「実践 Amazon Sagemaker - 全体像からユースケースまで」というタイトルでライブセッションを担当しました。

当日のスライド

当日のスライドはこちらです。
実際のライブセッションではSageMaker Studioの画面をお見せしながら発表していたので、スライドだけだとわかりにくい部分は後日YouTubeのクラスメソッドチャンネルで公開されるセッション録画を見ていただけると幸いです。
※動画公開され次第、こちらにも貼る予定です。
2020/6/29更新 セッション録画が公開されました!(下にYouTubeの動画埋め込みあり)

当日のセッション録画

2020/6/29更新 セッション録画が公開されましたので、本記事にも動画を追加しました。

7/7まで続く本イベントの最新動画について、いち早くキャッチアップしたいという方は、YouTubeで「クラスメソッド株式会社」をチャンネル登録していただくと新着通知を受け取ることができますのでご活用ください。

YouTube - クラスメソッド株式会社チャンネル

QA

本セッションについていただいた質問について、この記事でも改めて回答をまとめます。

Q1: SageMakerにはAzure MLのようなGUIベースのデザインツールはあるのでしょうか?

Azure MLのようにモジュールを線で繋いで機械学習のフローを作成するようなデザイナー機能はありません。
あくまでグラフィカルなIDE(メニューバーやサイドバーなどが表示されていて、マウスクリックで操作可能なUI)に留まります。

Q2: Autopilotは事前に掛かるコストを予測することはできますか?

以前に同様のケースでAutopilotを使用した経験があれば、ある程度のコストを見積れる可能性(データ量や実際に実行されたインスタンス、実行時間を元に試算)はありますが、 新規のモデル作成実行に対するコスト予測についてはかなりブレる可能性が高いです。

Q3: トレーニングの際の評価指標は自分でえらべるのでしょうか?(R2やMAE、RMSEなど)

SageMakerのビルトインアルゴリズムについては、使用される評価指標(メトリクス)が決まっており、変更することは出来ません。詳細は各アルゴリズムの解説ページをご参照ください。

Amazon SageMaker 組み込みアルゴリズムを使用する

組み込みアルゴリズムそれぞれに対する一般的な評価指標が含まれているので問題になるケースはあまりないかと思いますが、どうしても独自で評価指標の追加が必要な場合は、独自アルゴリズムやモデルによる実行方法を採用する必要があります。 独自アルゴリズムやモデルの利用については以下のページをご参照ください。

Amazon SageMaker で独自のアルゴリズムやモデルを使用する

Autopilotの実行時に最適化する指標を選べるか?という意図であれば、「Select the machine learning problem type」で「Auto」以外を選択すると、対象の問題に合わせて幾つかの指標から選択することが出来ます(現状は選択肢がとても少ないですが…)

Q4: 今後は従来のSagemakerインスタンスではなく、Studioを使うのが推奨になっていくのでしょうか?もしくは使い分けがある?

発表中にお見せしたSageMakerのサービス群の図で表現されているように、基本的にはStudioで各サービスを囲って一元的に操作・管理することが推奨していると認識しています(そもそもStudioの守備範囲外のサービスは別)
現状では、一部の細かい機能・操作についてStudioでは出来ないことが残っているので、アップデートに期待しつつ一旦は使い分けることが必要です。

さいごに

平日のお昼(社会人の方であれば恐らく業務時間中)しかも週の後半金曜日でお疲れのところ、セッションご視聴いただきまして誠にありがとうございました。 そして当社イベントスタッフの皆様、Developers.IO 2020 Connectはまだまだ続きますが、まずは本日のDay4お疲れ様でした!