[レポート]Democratizing ML for data analysts #ANT319 #reinvent

2022.11.30

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

どーも、データアナリティクス事業本部コンサルティングチームのsutoです。

現地ラスベガスでre:Invent 2022に参加中です。

本エントリはAWS re:Invent 2022のセッション「ANT319 Democratizing ML for data analysts」のレポートです。

セッションの概要

AWS offers built-in machine learning (ML) integration as part of its purpose-built analytics services to help you gain deeper and faster insights from all your data. You can build, train, and deploy ML models using familiar SQL commands without prior ML experience. In this chalk talk, learn how you can use Amazon Redshift to take advantage of Amazon SageMaker, a fully managed ML service, without learning new tools or languages.

 

AWSは、機械学習(ML)の統合を、目的に応じた分析サービスの一部として組み込み、すべてのデータからより深く、より速くインサイトを得ることを支援します。機械学習の経験がなくても、使い慣れたSQLコマンドを使用して、機械学習モデルを構築、トレーニング、およびデプロイすることができます。このチョークトークでは、新しいツールや言語を学ぶことなく、Amazon Redshiftを使用してフルマネージドMLサービスであるAmazon SageMakerを活用する方法を学びます。

スピーカー

  • Phil Bates, Sr. Analytics Specialist SA, Amazon Web Services
  • Yanzhu Ji, product manager, Amazon

セッションタイプ

Chalk Talk

レポート

Redshift MLによる課題解決のユースケース

  • 機械学習は、産業界、中小企業、大企業に共通する多くのユースケースを構築しています。
  • 例として製薬会社、求人サイトを運営する会社など業界も様々あり、課題を抱えている
    • SQLコマンドを用いた分析をこれまで行ってきたが、機械学習を利用した予測分析をしたい要件がある。しかし他の技術やスキルセットを学ぶにはコストがかかる
    • 既存でDWHを構築済みで、すでに長い期間データの蓄積をしてきた。データの移行やアーキテクチャの変更をなるべく抑えながら機械学習のサービスとつなげるにはどうすればよいか
  • 上記のような課題を持つ顧客にとってRedshift MLはぴったりハマる技術だった

機械学習の典型的なステップ

  • 重要なことのひとつは、インフラを管理する必要がないこと
  • さらに重要なことの1つは、高品質のモデルを持つこと
    • トレーニングセットとテストセットを自動的に作成し、チェックを行う。つまりパフォーマンス評価ができることが良い点
  • Redshift MLでは「MLP deep learning」をサポートしている
    • MLPの良いところは、特徴の特性を自動的に見つけることができること
    • そのため、従来データサイエンティストとして行わなければならなかったような、手作業による特徴抽出を軽減することができる

Redshiftが提供しているflexibilityについて

  • 機械学習のプロセスとペルソナの観点から、「Model tuning」「Model selection」で人間がより良い学習能力を持たせるために突き詰めて作業を行うことになる
  • また、学習に使えるデータを準備する点で「Data preparation」においてもデータソースに沿った変換機構を構築しなければいけないこともある
  • Reedshift MLにはそれらを含めたプロセスにおいて柔軟に対応可能な機能がある
    • ↑これはデータアナリスト向けに言った言葉で、もし機械学習に十分な知識知識を持ち、コンセプトを学ぶことができれば、データが良いものであれば、ユーザーで柔軟にカスタマイズしてコントロールできる

Redshift MLのワークロード

  • 基本的にSQL文を用いてモデル作成やトレーニング、パフォーマンス評価や推論など機械学習のプロセスを実行
  • モデルのトレーニングに SageMaker を使用し、ストレージに Amazon S3 を使用する。ここに追加の費用が発生する
  • 移行の画面はいくつかの例をもとにしたデモ画面でプロセスの流れを解説している様子です

  • その他、具体的にどんな操作をしているかはAWS Big Data Blogに参考記事があります

予測確率をサポート

最後に

全体としては、Redshift MLを活用している企業の事例の話から、Redshift MLの持つ強みや実際の利用方法や操作についての解説がメインでした。

チョークトークのためプレゼンの合間で随時質問を受け付けるスタイルで、割と多くの質問が飛び交っていて、落ち着いた雰囲気を保ちつつ盛り上がっていた印象です。

質問内容としては、「Redshift MLのコスト感」を気にされている方、「モデルのカスタマイズについて」聞いている方、「データドリフトを自動的に判断してモデルを再トレーニングする機能はRedshift MLだけで可能か」という質問(これは現状Event BridgeやLambdaの組み合わせで対処するしかないと回答していました)など

私は英語力が皆無ってレベルなので、現地でネイティブ英語はまったく聞き取れず、Otter.aiを駆使してなんとかやっています。

今回は質問者へのマイク渡しがあまりなかったため、質問者の音声はほぼ文字起こしできずに終わってしまいました。

チョークトークのなかの議論を現地で少しでも聞き取って理解できるともっと面白く感じるだろうと思います。