「AWS ML Immersion Days Tokyo for Partners」に参加しました。(1日目のまとめ)

AWSでの機械学習系サービスを全般的に学ぶことができました。
2018.11.19

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

2018年11月14日(水)、15(木)に開催された「AWS ML Immersion Days Tokyo for Partners」 に参加してきましたので、そのまとめレポートを書こうと思います。

目次

  • 1.「AWS ML Immersion Days Tokyo for Partners」について
  • 2.報告内容
    • AWS上でのデータ分析と活用について
    • AWS上でのデータレイクの構築、QuickStarts、及び顧客事例
    • 機械学習におけるデータの準備と特徴量の設計
    • AWSにおける機械学習サービスのスタック
    • Amazon Rekognition ハンズオン (画像認識)
    • AWSコンソール上からのAmazon SageMakerハンズオン
    • AWS GreengrassとエッジでのML inferenceの機能紹介
  • 3.懇親会
  • 4.まとめ

1.「AWS ML Immersion Days Tokyo for Partners」について

本イベントはAPN パートナー限定で実施されたイベントで、「機械学習に必要となる基礎知識やデータサイエンスのプロセス、機械学習のアルゴリズムやAWSの機械学習サービスの実践的なハンズオンを含むプレゼンテーションとワークショップ」です。
AWSのグローバル機械学習チームが来日してくれて、「AWSにおける機械学習サービスの活用」についてプレゼンしてくれました。

「AWS ML Immersion Days Tokyo for Partners」について

2.報告内容

11月14日(水)では挨拶を含めて計9本のセッションがありましたので、それぞれの概要をまとめました。

2-1.挨拶

まずは「Regional Segment Lead」である「小澤 剛」さんの挨拶から始まりました。

挨拶の中では下記のようなことを報告されていました。

  • 機械学習の「実用性」が向上したことにより、実務の中に機械学習を活用しよう、という気運が強まってきている。
  • 機械学習の常識として「汚いデータを利用しても、いい結果は得られない」というものがあるため、「データをどのように処理するのか、というパイプラインの部分はとても重要である」

2-2.AWS上でのデータ分析と活用について

続いて、「Jose Noriega」さんの報告です。  

本セッションでは「機械学習をする前段階としてのデータ処理、をするためのAWSサービス」について紹介していました。
これから機械学習を進める前に、まずはデータのインフラ基盤を整える必要があり、そのためのサービスについての紹介でした。

また、コンポーネントは「レゴブロックのように組み合わせる」ことも可能であり、「全てをAWS上で揃える必要はなく、既存のものやその他のツールを利用することも検討するべき」ということも説明していました。

2-3.AWS上でのデータレイクの構築、QuickStarts、及び顧客事例

続いても「Jose Noriega」さんの報告です。
本セッションでは「データレイクの構築」についてお話しされていました。
報告内容をまとめると、下記の通りです。

  • データを活用できている会社は収益をあげられる傾向があるという調査結果があるため、データレイクは重要である
  • 現在一般的となっているデータレイク構成図は、「当時はそれしか方法がなかった」ためにそのような構成となっていることが多い
  • IoT,携帯電話の登場とともに「処理するデータの質が変わってきている」ので、「何をしたいか」に合わせて最適な構成を検討する必要がある
  • 構成を検討する時は、「レゴブロック」のように「サービスを組み合わせて作る」、といった考え方が良い
  • 機械学習を進める前に、まず「データレイク」、「データウェアハウス」の最新化等の「基本的なソリューション」で価値を出すことができないか、を検討するべき

2-4.機械学習におけるデータの準備と特徴量の設計

続いても「Jose Noriega」さんの報告です。
本セッションでは「機械学習をする上での注意点」についてお話しされていました。

  • 機械学習を進める上では、「ビジネスを主眼に置くこと」が必須であり、「トライアンドエラーを繰り返せる体制」であることが必要。この点が従来ながらのシステム構成とは若干異なる。
  • 「処理前の生データの可視化(一般的なレポート、ダッシュボードとは異なる)」も重要であり、アナリストが重要な役割を果たす。
  • 「機械学習のためのデータの前処理」は重要度が高いものの難しく(データのフォーマットや使うツールによって形式が異なる、データの前処理内容の理解)、データサイエンティスト自らが実施していることがほとんど。
  • 例えば、機械学習に利用するデータやアルゴリズムの種類に応じて、ラベルづけ等のやり方が異なる
  • データサイエンティストは「データの前処理」に多くの工数を割いており、本来の業務に割くべき時間が少なくなってしまっているため、「自動化」等の対策が必要。
  • 「データの前処理の自動化」のためにE2Eのツールを使っている企業もあり、AWSパートナーが提供しているツールもあるので、活用してみてください

2-5.データの可視化

続いて、「Kristof Schum」さんの報告です。
本セッションでは「データの可視化」について全般的なお話をされていました。

報告内容の概要については、下記の通りです。

  • 「記憶に残るプレゼン」をするためにはデータの可視化が必要である。(クロス集計の結果を見せられても、人の頭には印象が残らない)
  • 「プレゼンの印象の強さ」は「ビジュアル化された図の有無」と関係がある
  • ビジュアライズする時の注意点(伝える情報量はまとめて少なくして、可視化の適切なフォーマットを選び、見やすさを意識する)
  • ダメなビジュアライズの例(y軸が0以外から始まる、Y軸の単位が不適切、時間軸の「一部分」のみを切り取っている、円グラフや棒グラフ等を適切でない使い方をしている、「通例」を無視している(ex.カラーマップでは色が濃い方が数字が大きい))
  • 可視化のために使うPythonライブラリの紹介(matplotlib,seaborn,ggplot2)

2-6.AWSにおける機械学習サービスのスタック

続いては「Kris Skrinac」さんの報告です。
機械学習自体の説明から始まり、機械学習系のサービスを全般的に広く紹介したセッションでした。

  • 機械学習の定義を「抜けている情報を埋め、今ある情報を使ってデータを生成する技術」として、機械学習を「全ての開発者・アーキテクトが利用できるようにする」ことがAWSのミッションである
  • 機械学習系のサービスの紹介(Amazon Lex,Amazon Polly,Amazon Translate,Amazon Transcribe,Amazon Comprehend,Amazon SageMaker
  • 機械学習によく使うフレームワークがインストールされているAWS 深層学習 AMIの紹介
  • 機械学習をビジネスにどのように応用すればいいか、というのを相談したい時はAmazon ML Solutions Labに相談しましょう

2-7.「Amazon Rekognition」ハンズオン(画像認識)

続いては、「Rumi Olsen」さんによる「Amazon Rekognitionのハンズオン」でした。

  • 「Amazon Rekognition」でできる機能を一通り試す
  • 「Rumi Olsen」さんが用意してくださったサンプルを使って、「AWS Lambda」から「Amazon Rekognition」に画像を投げて推論を実行するハンズオン
  • 「Rekognition Video」の紹介

2-8.AWSコンソール上からの「Amazon SageMaker」ハンズオン

続いては「Kris Skrinac」さんによる「Amazon SageMaker」のハンズオンでした。

「Jupyter notebook」の使い方の説明から始まり、「Kris Skrinac」さんが用意してくださったサンプルを使って「スポットインスタンスの価格予想」に挑戦しました。
mxnetを使って「LSTMを使った浅いネットワークによる時系列予測」を実際に組む、というものでした。

2-9.「AWS Greengrass」とエッジでの「ML inference」の機能紹介

最後は「Rumi Olsen」さんによる報告でした。
報告内容の概要については、下記の通りです。

  • 「IoTシステムで課題解決をする際は、デバイスの管理を容易にする」必要があり、そのために必要な機能をAWSはサーバレスで実行できるように用意している
  • AWSのIoTサービスを実際に利用している会社の事例紹介
  • AWSのIoTサービス各種紹介(Amazon Free RTOS,AWS Greengrass,AWS IoT Core,AWS IoT Device Management,AWS IoT Device Defender,AWS IoT Analytics)
  • 「AWS IoT Analytics」でデバイスを分析して、それを元に機械学習で新しくモデルを生成し、そのモデルを「AWS Greengrass」でデプロイする、というのがいい流れだそうです。

懇親会

諸々のセッションが終わったら、懇親会にと移りました。
お酒やソフトドリンク、お洒落なツマミを用意していただきました。

まとめ

「機械学習の実用化」はこれからもガンガン推進されていくと思いますので、今回のような「実際に機械学習を実用化するにあたって必要な情報」を整理してプレゼンしてくださるのはとても助かりました。