【レポート】A-2『Amazon SageMaker の基礎』at【福岡開催】AWS Solution Seminar 〜今日からはじめる ML(機械学習)と AI(人工知能)サービス〜

2019年 11月 19日(火) エルガーラホールにて
【福岡開催】AWS Solution Seminar 〜今日からはじめる ML(機械学習)と AI(人工知能)サービス〜が開催されましたので、参加してきました!

引き続き、本記事では、セッションA-2『Amazon SageMaker の基礎』についてレポートしたいと思います。

尚、同セミナーで行われたの他のセッションレポートはこちらになります。

セッション概要

A-2 Amazon SageMaker の基礎
https://aws-seminar.smktg.jp/public/session/view/873

概要 Amazon SageMaker は 2017 年11月に GA した機械学習のマネージドサービスで、機械学習に必要なインフラ管理の問題を解決し、機械学習の開発・学習・運用を効率化してきました。また機械学習のワークフロー全体にも着目し、データ準備、モデル最適化等もサポートしており、これまで多くのアップデートがリリースされています。本セッションでは、Amazon SageMaker についての理解を深めていただくために、基礎の部分について詳しく紹介いたします。

(お客様事例のご紹介)
株式会社シフトセブンコンサルティング 小田原 貴樹 様
弊社では全国の自治体を対象に、ふるさと納税の業務処理システムの提供・業務処理のアウトソーシングサービスの提供を行っています。 ふるさと納税業務の中には、寄附者から送付された納税関連書類のデータエントリー・データチェックの業務がありますが、年間・数百万枚の書類を短期間に処理しなければならないという課題があり、弊社では送付された全書類をスキャニングし、AI-OCRを活用することで、処理の効率化を図っています。 スキャニングされた書類が、どういった種類の書類であるかを、OCR処理結果からキーワードで判定していますが、イレギュラーな処理結果に対応できていませんでした。 この問題を解決するためには、「機械学習による画像分類しかない!」→「機械学習ならAmazon SageMaker しかない!」と考え、Amazon SageMaker による画像分類にチャレンジしたところ、驚くほど簡単に実用レベルの推論成果を達成することができました。 Amazon SageMaker を利用することで、いかに容易に機械学習にチャレンジできるか、弊社のユースケースをご紹介します。

スピーカー

アマゾン ウェブ サービス ジャパン株式会社
技術統括本部
機械学習スペシャリストソリューションアーキテクト
宇都宮 聖子 様

事例紹介

株式会社シフトセブンコンサルティング 技術担当執行役員
小田原 貴樹 様

セッションレポート

  • 自己紹介
  • 機械学習における"Undifferenriated Heacy Lifting"
    • 開発環境構築
      • 必要なリソースの見積もりと購入の決断
      • 開発チームで均一な開発環境構築
      • フレームワークのインストール、バージョン管理
    • 機械学習モデルの学習
    • 運用
      • 機械学習と異なるスキルセットが必要になる
  • AWS ML サービス
    • AWSのMLマネージドサービスを活用し、機械学習サービスを実現する
  • 機械学習の課題に対するSageMakerのメリット
  • Amazon SageMakerとは
    • 機械学習のプロジェクトの課題を解決するためのマネージドサービス
    • 数分で起動でき、学習、推論環境は柔軟にスケール
    • 多数のAPIを提供しており、他のサービスとの自由度の高い連携が可能
    • 東京を含む18リージョンで提供
    • ほとんどのコンテナ、SDKはオープンソース
    • ラベリング、開発、学習、モデル変換、推論
  • ラベリング
    • 教師有学習
    • Amazon SageMaker Ground Truth
      • データにラベル(Ground Truth)を付与するアノテーション作業の支援サービス
    • 組み込みのラベリングツール(動画)
      • 画像分類
      • 物体検出
      • セマンティックセグメンテーション
      • 文章分類
    • ラベルを付与するワーカーは選択可能(マーケットプレイスもあり)
    • SageMaker Noteboook instance
      • SageMaker 上のワークフロー(環境・データのインポート, モデル定義, 学習ジョブ、デプロイ, エンドポイント呼び出し) を事項可能
      • Jupyter Notebook
      • JupyteLab
    • 学習:
      • APIを経由で学習用のインスタンスを起動可能で、学習が完了すると自動で停止する
      • 高性能なインスタンスを手動で停止したりせずに済み、簡単にコストを抑えることができる
      • 指定したインスタンス数で分散学習環境が用意に構築できる
    • 推論:APIエンドポイントやバッチ推論
      • API1つで簡単に実現
      • Elastic ingerence
      • バッチ推論
    • 開発・学習・推論は個別に利用可能
  • SageMakerを利用した機械学習プロセス
    • SageMakerの基本構成要素
    • S3 <==> SageMaker <==> ECR
    • 学習データの準備
      • S3におく
      • シンプルに構成する
    • 機械学習の実行環境をコンテナイメージで提供
      • 実行環境をコンテナイメージとしてECRにおく
      • ユーザーは、自分が利用したい環境をコンテナイメージから選んで利用する
    • SageMakerのAWS構成図
      • SageMaker
        • ノートブックインスタンス
        • 学習用インスタンス
          • 学習するときだけGPUを使いたいというニーズに対応
          • 学習が終了するとインスタンスは自動削除される
        • 推論用インスタンス
          • エンドポイント作成
          • 1行(deploy)で生成される
      • S3
      • Amazon ECR
    • SageMaker Pyton SDKによる学習・推論のながれ
      1. Estimatorの作成
      2. 学習の実行
      3. 推論の実行
    • 学習データの準備
      • ノートブックインスタンスでのデータ前処理
      • 16TBまで拡張可能
      • Numpy,Pandasなどのパッケージがプリインストール済み
    • S3からのファイル転送
      • FILEモード
      • PIPEモード
        • 非同期でデータを取得しながら学習可能
    • 学習時のファイルシステムにEFSとFSx Lustreが対応(New!)
    • 学習スクリプトの準備
      • SageMakerビルトインアルゴリズム
        • よく使われるアルゴリズムはコンテナがすでに準備されている
      • Image Classification
        • 学習済みのモデルを提供しており、ユーザ固有のデータに合わせて追加学習(転移学習)が可能
      • AWS Marketplace
        • マーケットプレイスから時間単位でモデルを購入することも可能(200以上)
    • DL・ML 実行環境
      • 一般的に利用されている機械学習のフレームワークは、コンテナイメージとして提供されておりユーザは必要なものを選んで利用できる
      • AmazonSageMakerでサポートしているフレームワーク一覧
    • SageMakerノートブック デモ再生
    • SageMakerがManaged Spot Trainignに対応
      • これまでの学習コストを最大で90%削減
      • 3行追加するだけで、SpotInstangeを利用可能
    • 並列実行可能でHPTパラメータを最適化可能
    • リアルタイム推論
    • バッチ推論
      • 推論リクエストがあったときだけ、
    • 推論に最適なG4/R5インスタンスをサポート(New)
    • 学習ジョブの検索機能
    • AWS StepFunctionの利用
  • セキュリティ
    • 学習と推論のジョブにおいてサーバ側の暗号化可能
    • 入出力データの暗号化
    • CloudTrail対応済み
    • PCS DSS他準拠
    • 閉域網で通信可能

事例紹介

株式会社シフトセブンコンサルティング
技術担当執行役員
小田原 貴樹 様

  • できる!ゼロから始めるSageMaker
    • 自己紹介
      • すきなサービス Connect, SageMaker
    • 会社紹介
      • (株)シフトセブンコンサルティング
      • 本社 福岡
    • ふるさと納税のシステム導入を行っている
    • ふるさと納税について
    • ワンストップ特例制度でSageMakerを使用したサービスを開発
    • ワンストップ特例受付の課題
      • 紙書類を入力しなければならない
      • 本人確認書類のチェック
      • 年末年始に膨大な数が届くが1ヶ月以内に処理する必要がある
      • 年末の31日に大量に届く
    • 本人確認書類
      • さまざまなデータが入っている(レポートできませんがいろんなデータがあるそうです)
      • 1件のミスも許されない
    • ふるさと納税について処理の流れ
      • 書類のチェックが非常に重要
    • AI-OCRの処理
      • 書類によって単語が被ってしまうこともあり、単語だけでの分類は難しい
    • AI-OCRの処理結果次第では単語が読み取れないことがある
    • Amazon SageMakerで画像分類
      • 事前にSageMakerでドキュメントの分類をやることにより99.5%から99.999%の精度向上!
    • 実際の書類分類のデモ
    • まとめ
      • まったく難しくありません
      • 参考サイトがたくさんあります
      • すばらしいマネージドサービスです
      • インターネットで検索したらたくさんブログが出てきます!
      • まずはレッツチャレンジ!!

感想

AI サービスにくらべ、SageMakerでのサービス実装はほんのちょっと敷居が高い印象をうけますが、0から作ることはほぼなくなっており。
もとからあるテンプレートやアルゴリズムを使用して実際の業務で使用されているサービスを開発し、業務に耐えうるシステムができるそうで参考になりました。 セキュリティについても厳しいシステムでの事例紹介かと思い、構成など参考にできる事も多くありました。