【レポート】 はじめての機械学習ワークフローの作り方 〜データに集中したいあなたのために〜 AWS-31 #AWSSummit

2023.04.24

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんにちは。森田です。

本記事はAWS Summit Tokyoで行われたセッション「AWS-31 はじめての機械学習ワークフローの作り方 〜データに集中したいあなたのために〜」のセッションレポートです。

セッション視聴

AWS Summit Tokyoの登録を行うことでオンデマンドで視聴可能です。(現地参加された方は改めての登録は不要です。)

 

セッション概要

スピーカー

アマゾン ウェブ サービス ジャパン合同会社

スタートアップ事業部 ソリューションアーキテクト

尾原 颯 氏

アジェンダ

  • Data-Centric について
  • 機械学習ワークフローと Data-Centric
  • Amazon SageMaker による解決
  • まとめ

セッション内容

  • Data-Centric とは
    • データの品質などに注力して開発するアプローチ
  • Model-Centric アプローチ
    • 機械学習の選択
    • パラメータのチューニングなど
  • Data-Centric アプローチ
    • データをきれいにしていく
      • フォーマットや欠損値
  • Data-Centric アプローチ効果
    • 綺麗なデータと汚いデータで10%精度が違う場合がある
  • 機械学習ワークフローと Data-Centric
    • 3 Step
      •  データ処理
        • データの収集
        • データのラベルづけ
        • データ探索
        • 特徴量エンジニアリング
      • モデル開発
        • 前処理
        • モデルの選択
        • モデルの学習
        • モデルのチューニング
        • モデル評価
      • デプロイ
        • モデルのデプロイ
    • 機械学習プロジェクトが失敗する理由
      • データの品質が不十分
      • データサイエンティストなどの専門職不在
    • プロジェクト成功に導くワークフローを構築するために必要なこと
      • 機械学習の知識
      • 高速な試行錯誤
      • 差別化要素への注力
        • より重要になっている
    • モデル開発 → デプロイ
      • AutoML などの技術を使った自動化・固定化
    • データ処理 → モデル開発
      • ツールを使ったサイクルの高速化
    • データ処理に注力(Data-centric)
      • 1つの有効なアプローチで銀の弾丸ではない
  • Amazon SageMaker による解決
    • 構造化データパターン(テーブルデータ)
      • SageMaker Data Wrangler
        • 機械学習用のデータを準備するための最も迅速かつ簡単な方法
          • データ品質の向上と探索
          • データの可視化と理解
          • データのエンリッチ
        • データのアクセス
          • 40種類を超えるデータソースをサポート
        • データの探索と可視化
          • 機械学習を使ってデータ品質の問題を発見
        • 特徴量エンジニアリング
          • GUI で300 以上の組み込み変換
          • カスタム変換も可能
          • Quick Model で期待できるモデル精度を推定
      • SageMaker Autopilot
        • 完全可視性を備えた機械学習モデルを自動的に作成
          • モデル開発を可視化
        • 自動機械学習モデル選択
          • 予測の種類を自動的に推測
        • SageMaker Data Wrangler から連携可能
        • モデルデプロイ
          • リアルタイム予測
          • SageMaker Data Wrangler のデータ処理を予測時にも適用可能
      • SageMaker Canvas
        • 機械学習による正確な予測コード不要で生成
    • 非構造化データパターン(画像、文書、音声など)
      • SagaMaker Ground Truth
        • 機械学習向けの高品質なデータセット作成
      • SageMaker JumpStart
        • 数クリックで 350 以上の公開モデルなどを素早く学習し、デプロイする
          • 機械学習のコードを記述する必要なしで始めることができる
  • Next Step

まとめ

本セッションを通して、Data-Centric とは何なのか、Data-Centricのアプローチについて学ぶことができました。

データの前処理を行うか否かで、同じモデルを使用した場合でも精度が10%近く変わることもあり、いかにデータの品質を改善していくことが重要であるかを再確認しました。

また、AWS では、モデルの構築部分を自動化できるサービスが豊富であるため、データに集中できる環境が整っています。

Data Centric に 機械学習プロジェクトを始める際には、AWS を利用することで非常に簡単に実現できそうですね!