【レポート】トレーニングセッション:予測分析の事前準備のために、データ調査ツールを使用する #alteryx23

2023.06.23

こんにちは!アライアンス統括部のikumiです。現地時間2023年05月22日(月)〜2023年05月25日(木)に米国ラスベガスで開催されたAlteryxの年次カンファレンスイベント「Inspire 2023」。今回クラスメソッドからは計6人のメンバーが現地参戦してきました。

本記事では、5/23に行われた「予測分析の事前準備のために、データ調査ツールを使用する」について、その内容をお届けいたします。

セッション概要

  • セッションタイトル
    • Pre-Predictive: Using the Data Investigation Tools
  • スピーカー(敬称略)
    • Albert Bellamy, Customer Training Instructor, Alteryx
  • 概要
    • 予測分析を実行する前に、新しいデータセットをクエリ、フィルタリング、理解するには時間がかかる場合があります。 データ調査ツールパレットを使用すると、データの調査がより簡単になり、時間を節約できます。

セッション内容

まずは、座学でユースケースやツール説明を受けましたので、その内容について共有します

ユースケース

  • このセッションでは、データ調査ツールについて学んでいきます

  • 分析を実行する前は、データセットを理解するのに時間がかかるのではないでしょうか

  • データ調査ツールを使用すると、より簡単にデータを調査でき、分析のための時間を節約することができます

予測分析のための準備とは

  • 予測分析は、基本的にはビジネスの理解から始まり、次にデータの理解に進んでいきます
  • そして、そのデータがインサイトが得られるものなのか?を繰り返し調査と準備を行います
  • そしてデータが準備されてから、分析に進むことができます

  • 実際には、このデータの準備に最も時間がかかってしまうケースがほとんどなので、ここに焦点をあてていきます

本日学習するツール

  • フィールドサマリーツール
  • 分割表
  • 度数分布表
  • 散布図
  • 平均プロット
  • アソシエーション分析

これらのデータ調査ツールを学習し、データ調査のステップでどのデータが重要なのか、または不要なのか等を判断していくことができます。

フィールドサマリーツール

  • 各フィールドにあるデータの情報を簡潔にまとめ、提供してくれるツールで、データが不十分な可能性を確認します
    • Nullや0の有無
    • 定数
    • カテゴリ変数 などを調査することができます
  • O出力アンカー:サマリーデータ
  • R出力アンカー:データプロファイリングレポート
  • I出力アンカー:ヒストグラム形式で表示したインタラクティブレポート

度数分布表ツール

  • 度数分布表では各フィールドに関する情報を確認することができます
    • 各フィールドのデータの数、割合 などを調査することができます
  • O出力アンカー:度数分布表のデータ
  • R出力アンカー:度数分布表のレポート
  • I出力アンカー:各数値をグラフで表したインタラクティブレポート

分割表ツール

  • 最大4つの各フィールド間の関連を確認することができます
    • 各フィールド間の組合せの数と割合 を調査することができます
    • カイ二乗検定を含める場合最大2つの変数を設定できます
  • O出力アンカー:分割表のデータ
  • R出力アンカー:分割表のレポート
  • I出力アンカー:各数値をグラフで表したインタラクティブレポート

散布図

  • 2つの変数のデータの関係を確認することができます
    • 単純な線形回帰直線
    • ノンパラメトリック回帰を使用した平滑線
    • 箱ひげ図による外れ値の検知 などを追加することができます

平均プロット

  • 各カテゴリ変数に対して、応答フィールドの平均をプロットします
    • 平均のプロット
    • 各平均値の標準誤差、標準偏差
    • 信頼区間に基づくエラーバー などを追加することができます

アソシエーション分析

  • 2つの変数間の関係の強さを確認します
  • ピアソン積率相関係数、スピアマンの順位相関係、ヘフディングのD統計の分析手法が使用でき、
    • 相関行列
    • 対応する P 値の行列 を確認できます
  • R出力アンカー:相関行列とP値の行列のレポート
  • I出力アンカー:各数値をヒートマップと散布図で表したインタラクティブレポート

ハンズオン

各ツールの説明が終わり、実際に収入や家族に関するデータを使用したツールの実行をハンズオン形式で行いました。今回すべてのハンズオンの工程については割愛しますが、それぞれのツールでのアウトプットの紹介をしていきます。

データの中身を一気に把握する

  • フィールドサマリーツールでデータの中身を一気に確認しました
  • ここで、Incomeのフィールドには欠損値があることを確認できましたので、分析に使用する際は0に置換する処理を行いました

各フィールドのデータの構成を確認する

  • 度数分布表ツールを使用して、データの構成を確認しました

カテゴリ変数と応答変数の関係を理解する

  • 平均プロットツールを使用して、外食に使った金額と教育レベルの関係を確認しました

特定のフィールド間の関係性を確認する

  • 分割表を使用して、教育レベルと家族構成の関係性を確認しました

特定のフィールド間の相関を確認する

  • アソシエーション分析ツールを使用して、各指標の相関を確認します
  • 外食金額と収入にはかなり弱い相関がみられそうです

2つのフィールド間の関係を視覚的に表現します

  • 散布図ツールを利用して、外食金額と収入の散布図を作成しました

以上でハンズオンの内容は以上となります。

最後に

いかがでしたでしょうか。今回は予測分析のためのデータ調査、というテーマでデータ調査ツールの紹介がありましたが、予測分析のためだけでなくても、データの中身を確認するためにとても便利なツールだと感じました。データ調査ツールの多くは統計の事前知識が必要で私自身も難しいと感じる内容が多かったですが、効率的に分析を行うために、頑張って使いこなしていきたいと思います。