[レポート] AWSでのレポート、ML、AIのデータ準備 #ANT227-S #reinvent

2019.12.15

DA事業本部の川崎です。

本記事はAWS re:Invent 2019のセッションレポートとなります。

概要

In today’s complex world, everyone is trying to compete using data. The starting point for all reporting, machine learning (ML), and artificial intelligence (AI) tools is high-quality, trusted data drawn from many sources, which is often the biggest pain point for any organization. Data professionals have all the skills necessary to analyze the data but are spending too much time gathering and validating it instead of analyzing it. Join Matillion in this session and learn how ETL jobs can load, cleanse, aggregate filter, and join data in Amazon Redshift or Snowflake to give your reporting, ML, and AI teams a head start. This presentation is brought to you by Matillion, an APN Partner.

今日の複雑な世界では、誰もがデータを使用して競争しようとしています。 すべてのレポート、機械学習(ML)、および人工知能(AI)ツールの出発点は、多くのソースから引き出された高品質で信頼できるデータであり、これは多くの場合、組織にとって最大の問題点です。 データの専門家は、データを分析するために必要なすべてのスキルを持っていますが、データを分析するのではなく、収集と検証に多くの時間を費やしています。 このセッションでMatillionに参加し、ETLジョブがAmazon RedshiftまたはSnowflakeでデータをロード、クレンジング、集約、および結合して、レポート、ML、およびAIチームに有利なスタートを切る方法を学びます。 このプレゼンテーションは、APNパートナーであるMatillionによって提供されます。

スピーカー

  • Edward Hunter - Director Business Intelligence, Clutch LLC
  • David Langton - Product Director, Matillion

アジェンダ

  • レポート、Al、および機械学習
  • ビッグデータ、および複雑なデータの課題
  • クラウドデータウェアハウスの選択
  • データウェアハウジングとMLのためのデータ変換

Matillionについて

  • Matillionについて
    • クラウド向けデータ変換
    • クラウドネイティブ、クラウド展開
    • AWS Marketplaceで評価の高い製品
  • Matillion ETLの対象DWH
    • Amazon Redshift
    • スノーフレーク
    • Google BigQuery

レポート、Al、および機械学習

  • 静的レポート
  • ビジネスインテリジェンスとOLAP
  • 機械学習
  • AI

ML&Alのビジネス価値

  • データを使用して競争する理由は何ですか?
  • 基本的なレポート
  • モデル構築
  • あなたのデータ・ジャーニーはどこからスタートしますか?

クラッチについて

  • クラッチについて
    • 会社概要
    • クラッチ顧客マーケティングプラットフォーム
    • B2C企業が顧客を特定、理解、動機付ける方法を変革

ビッグデータ、および複雑なデータの課題

  • データのコンテキスト、構造、ボリュームは、クライアントによって大きく異なる
  • データの取り扱いと、洞察の導出についての、予測不可能性と課題

クラッチの ML&Al ジャーニー

クラウドデータウェアハウスの選択

  • クラウドエコノミクス(設備投資 対 PAYG)
    • PAYG: pay-as-you-go(使った分だけ支払う方式)
  • クラッチがAmazon Redshiftを選択した理由
  • 支援する技術

データウェアハウジングのETL

  • ETL 対 ELT
  • ツールの風景
  • クラッチがAmazon Redshift向け Matillion ETL を選択した理由

Matillion ETLのデモ

データウェアハウジングとML向けのデータ変換

  • Kimball、Inmon、Data Vault
    • データウェアハウジングの標準モデル
      • スタースキーマ
      • 3NF
      • データヴォルト
  • 特徴量エンジニアリング
    • これらは必須だが、どこでやるか?
      • データ型の変換
      • 既存のデータから新しい特徴量を生成

データウェアハウスをMLツールに組み込む

  • Amazon SageMaker
    • 自前で構築するか、AWSマーケットプレイスを利用する
  • Amazon Personalize
    • 使用準備済の(すぐに使える)AI
  • Amazon Forecast
    • 使用準備済の(すぐに使える)AI

まとめ

本セッションは、APNパートナーであるMatillionが提供するセッションで、Matillion ETLを使った、AWSでのレポート、ML、AI向けのデータ準備について解説がなされました。

優れたツールは、作業の効率を高めてくれます。 機会がありましたら、これらの新しいデータ準備ツールの評価をしてみたいと考えています。