QuickSightのサンプルデータでML Insightを使用した予測機能を試してみる

QuickSightのML Insightを使うと、ビルトインの機械学習機能で簡単に推移の予測などができました。

#AWS

#Amazon QuickSight

#機械学習

nayu.t.s

2023.08.01

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

データアナリティクス事業本部機械学習チームの鈴木です。

QuickSightのML InsightのMLを使用した予測機能を利用したく、ユーザーガイドの『Amazon QuickSight で ML Insights を使用するためのデータセット要件 - Amazon QuickSight』で公開されているML Insights Sample Dataset VIを使って試してみました。

知りたかったこと

以下のことが知りたかったため、実際にQuickSightにデータを読み込んで予測を作成しました。

Athenaデータソースから読み込んだデータでもML Insightによる予測ができるのか
What-if分析がどのように使えるのか
データ件数がデータセット要件よりも少ない時に予測が表示されるのか

MLを使用した予測機能について

QuickSightのML Insightのうち、内蔵のRandom Cut Forestアルゴリズムを使用して主要なビジネスメトリクスなどの値を予測することができます。

この機能については以下のユーザーガイドのページに記載があるのでご確認ください。

データの準備

まず、ml-insights.csv.zipをユーザーガイドからダウンロードして、検証用のS3バケットにアップロードしました。

サンプルデータのアップロード

次に、以下のSQLをAthenaで実行し、sample_dbデータベースにml_insights_rawテーブルを作成しました。

-- <検証用のS3バケット名>の箇所は自分の環境のものに変えてください。
CREATE EXTERNAL TABLE `sample_db.ml_insights_raw`(
  `aggregate_day` string COMMENT 'aggregate day',
  `product_categories` string COMMENT 'product category',
  `geo` string COMMENT 'geography',
  `revenue` float COMMENT 'revenue')
ROW FORMAT SERDE 
  'org.apache.hadoop.hive.serde2.OpenCSVSerde' 
STORED AS INPUTFORMAT 
  'org.apache.hadoop.mapred.TextInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
  's3://<検証用のS3バケット名>/ml_insights'
TBLPROPERTIES (
  'classification'='csv', 
  'columnsOrdered'='false', 
  'compressionType'='none', 
  'skip.header.line.count'='1', 
  'delimiter'=',')

このとき、ワークグループは以下のようなワークグループを使用しています。クエリの結果の場所以外のクエリに関する設定はデフォルトです。これはAthenaデータソースの作成時にも使用します。

検証に使用したワークグループ

以下のようにml_insights_rawテーブルからサンプルのデータが検索できるようになりました。

aggregate_dayカラムをDATE型にして、データのフォーマットもPARQUETにしておきたかったので、以下のようにCTASでテーブルを再作成しました。

-- <検証用のS3バケット名>の箇所は自分の環境のものに変えてください。
CREATE TABLE sample_db.ml_insights
WITH (
      external_location = 's3://<検証用のS3バケット名>/ml_insights_parquet/',
      format = 'PARQUET')
AS SELECT 
  DATE(date_parse(aggregate_day, '%m/%d/%y')) AS aggregate_day,
  product_categories,
  geo,
  revenue
FROM sample_db.ml_insights_raw

最後に、データ件数がデータセット要件よりも少ない時に予測が表示されるのかの確認用に、１ヶ月分のデータに絞ったテーブルも作成しておきました。

-- <検証用のS3バケット名>の箇所は自分の環境のものに変えてください。
CREATE TABLE sample_db.ml_insights_tmp
WITH (
      external_location = 's3://<検証用のS3バケット名>/ml_insights_parquet_tmp/',
      format = 'PARQUET')
AS SELECT *
FROM ml_insights
WHERE aggregate_day BETWEEN DATE '2018-05-01' AND DATE '2018-05-31' 
  AND product_categories = 'Books'
  AND geo = 'Japan'

以下のように31件だけデータが入っています。Amazon QuickSight で ML Insights を使用するためのデータセット要件 - Amazon QuickSightによると、データの粒度が毎日の場合、少なくとも38日のデータが必要なので、データセット要件を満たさないデータと言えます。

少ないデータ件数のテーブルの件数