Scatterplot(散布図) | Alteryx Predictive Tools 道場 Advent Calendar #04

2018.12.04

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

はじめに

データ加工・準備・分析からレポート作成までをワンストップで提供するデータ分析プラットフォーム「Alteryx」には250種類を超えるツールと様々なサンプルワークフローが提供されています。

今回はそのなかでも興味はあるものの、何をやっているのか理解し難いサンプルとして定評のある「Predictve Alanysis(予測分析)」のサンプルワークフロー25種を弊社データインテグレーション(DI)部のメンバーが、アドベントカレンダー形式で順番に紹介しています。

それが今回実施している『Alteyx Predictive Tools 道場 Advent Calendar』です。

当エントリはその4日目、Scatterplot(散布図)について紹介するエントリです。

実行環境とサンプル起動

本エントリには、以下の環境を使用しています。

  • macOS Mojave バージョン10.14.1
  • VMware Fusion 10.1.4
  • Windows 10 Pro バージョン1803
  • Alteryx Designer 2018.4 Admin Version 日本語インストール + Alteryx Predictive Tools

Alteryx Designerを起動して、 メニューから Help > Sample Workflows > Predictive Analysis > 4.Scatterplot を選択します。 Predictive Analysisのサンプルがない場合は、Windowsのアプリと起動メニューから、Alteryx Predictive Toolsのインストールが正しく完了できているかを確認してください。

サンプル概要

本サンプルデータは、選択した2つのモデル変数の間の関係を確認する内容となっています。このサンプルでは以下のツールを使っています。

  • Input(データ入力)
  • Linear Regression Macro(線形回帰)
  • Scatterplot Macro(散布図)
  • Join Multiple(複数ジョイン)
  • Charting(グラフ作成)
  • Layout(レイアウト)
  • Render(レンダリング)
  • Browse(閲覧)

Input(データ入力)

入力ツールを使用して、予測モデルのデータを入力します。 提供されるデータには、3つの異なる変数セットがあり、それぞれが以前のデータよりも線形データが少なくなっています。 SALESはターゲット変数です。 VAR1、VAR2、およびVAR3は予測変数です。

Linear Regression Macro(線形回帰)

線形回帰ツールを、データに関する追加情報を出力するために使用します。散布図の作成とは直接関係はありません。線形回帰ツールの設定は目的変数と説明変数を選択するだけです。

線形回帰ツール3つの出力があります。それぞれ以下の情報が出力されます。

  • O(出力):結果ウィンドウにオブジェクトのモデル名とサイズが表示されます。

  • R(レポート):概要とプロットを含むモデルの概要レポートを表示します。

こちらの表示の読み方は、以下が参考になります。

ちなみに、レポートには2ページ目があり、残差(実際のデータを用いて推定された回帰式から算出される値と実際のデータとの差)を表示して、回帰式がデータに対して妥当かどうかを確認したりします。

  • I(インタラクティブ):インタラクティブなビジュアライゼーションのダッシュボードを表示し、さらにデータの発見とモデル探索をサポートします。

Scatterplot Macro(散布図)

ここが今回のサンプルのメインとなります。

散布図ツールは、余白にボックスプロットを含めるオプション、線形回帰直線、ノンパラメトリック回帰によるスムージング曲線、スムージングされた条件付きスプレッド、外れ値の識別、および回帰直線を含む拡張された散布図を作成することができます。スムージング曲線は、特に多くの観測値やデータの分散度が高い場合、従来の散布図に比べて2つの変数間の関係の特性を明らかにすることができます。

各散布図ツールでは、X(水平)軸とY(垂直)軸に沿ってプロットされるデータを選択できます。サンプルでは、3つの散布図ツールを使用して、X軸をターゲット変数であるSALES、Y軸をそれぞれ予測変数であるVAR1、VAR2、およびVAR3をプロットするよう設定しています。

ツール設定画面のプロット要素タブでは、データのプロット方法のルールを設定することができます。例えば、ラインのスムージングのチェックが付いていれば(デフォルトで有効)、ノンパラメトリック局所回帰モデルを使用して作成された曲線が表示されます。

ここで作成された散布図は、後でHTMLドキュメントにまとめて出力されることになります。

Charting(グラフ作成)

グラフ作成ツールを使って、入力データから直接、上記散布図ツールに近しいレイアウトの散布図を作成します。グラフ作成ツールにも分散図を作る機能がありますが、このツールには統計分析に関する機能は含まれていないので、分散図ツールのような回帰式に基づく線のプロットなどはできません。その代わりと言ってはなんですが、グラフの見出しやフォントの設定など、描画に関しての細かい設定が可能になっています。

こちらの図も、後でHTMLドキュメントにまとめて出力されます。

Join Multiple(複数ジョイン)

複数ジョインツールは、文字通り複数の入力データを指定した軸で結合することが可能です。本サンプルでは、X軸をターゲット変数であるSALES、Y軸をそれぞれ予測変数であるVAR1、VAR2、およびVAR3とした3つの散布図をそれぞれ作りましたので、それらを1つにまとめています。

Layout(レイアウト)

レイアウトツールを使用して、グラフの表示方法を設定します。

Render(レンダリング)

最後にレンダリングツールを使用して、それぞれのツールで描画したグラフを、散布図ツールを使ったものとグラフ作成ツールを使ったものそれぞれで出力します。サンプルでは、出力フォーマットをHTMLファイルにしています。

HTMLファイルがどこに出力されるかは、フロー実行後、結果ウィンドウに示されます。

最終的にHTMLファイルとして出力されたグラフをブラウザで確認します。まずは散布図ツールを使っての出力。

次に、グラフ作成ツールを使っての出力です。同じデータをプロットしていますが、付帯情報が大きく異なることが見て取れます。目的に合わせてツールを選択頂ければと思います。

さいごに

『Alteyx Predictive Tools 道場 Advent Calendar』、今回Scatterplot(散布図)のサンプルについてご紹介しました。明日、5日目は兼本による「Plot of Means(平均のプロット)」の予定です。お楽しみに。

Alteryxの導入なら、クラスメソッドにおまかせください

日本初のAlteryxビジネスパートナーであるクラスメソッドが、Alteryxの導入から活用方法までサポートします。14日間の無料トライアルも実施中ですので、お気軽にご相談ください。

alteryx_960x400