#14 : Alteryxサンプルワークフロー「需要予測(前編)」- Alteryx & Tableau 連携 Advent Calendar 2018

当エントリは『Alteryx&Tableau連携 Advent Calendar 2018』シリーズの14本目のエントリです。

当エントリでは、Alteryx Designerの実行ワークフローサンプル「Demand Forecasting(需要予測)」の内容を紹介します。

目次

 

「本日のテーマ」概要紹介

AlteryxとTableauはそのツール特性から非常に相性が良く、製品間それぞれにパートナー企業としての(特集)ページが設けられています。

本日は、Alteryx Designerの「Sample Workflows」にて展開されている「Tableau Starter Kit」の中で、「Predictive Analytics」配下の「Demand Forecasting(需要予測)」というサンプルワークフローについて見ていきたいと思います。

このワークフローでは、これらのワークフローは、Alteryxの線形回帰ツール(Linear Regression tool)を使用して、「顧客がどのくらいの費用を費やすか予測するにはどうすればよいですか?」という質問に応えるワークフローについての解説を行っています。結果となるデータの出力(Insight/洞察)はTableau Dashboardとして出力されます。

当エントリでは、サンプルワークフローで展開されているコンテンツの中から、線形回帰ツールとはどういうものなのかを解説しているパートを見ていきたいと思います。

 

ワークフローの全体像

当エントリで紹介するパート自体にはワークフローは展開・添付されていませんので割愛します。

 

ワークフローを読み解く

今回は実行するワークフローはありません。その代わりに「線形回帰」に関する作業の進め方について言及しているガイドがありますのでそちらの内容をまとめてみたいと思います。

1.はじめに

このワークフローでは、線形回帰ツール(Linear Regression Tool)を使って『"顧客がどれ位の費用を費やすか"を予測するにはどうすれば良いですか?』というような質問に答える際の参考となります。以降の解説では、線形回帰をビジネス上の問題にどう適用させていくか、また線形回帰の構成・実行方法について学んでいきます。

2.線形回帰の定義

線形回帰モデルは、統計学における回帰分析の一種であり、1組の入力(1つの目標変数、および1つまたは複数の予測変数)に基づいて予測を生成します。

『目標変数』は予測される変数、『予測変数』は予測を行うために使用される変数です。前者は1つのみ、後者は複数の予測変数が存在する可能性があります。

線形回帰は、一組の点に対する最良適合線である線形方程式を計算します。下記の散布図の赤い線は、単純な線形回帰直線の例です。目標変数と予測変数の関係を素早く確認するためには、散布図を作成すると便利です。散布図は、線形関係が存在するかどうか、および外れ値があるかどうかを識別するのに役立ちます。

3.線形回帰の定義(続き)

単純な線形方程式は次のように定義されます。:Y = m1 * X1 + b

  • Y:目標変数
  • X1:予測変数
  • m1:線の傾き・勾配を表すX1の係数
  • b:ラインの切片を表す定数

線形回帰は、目標変数を予測するために係数の推定値を生成する。勾配は、X1が変化するとX1がYに与える影響です。

この例では、人口統計およびデジタルマーケティングデータを予測変数として使用して、顧客の支出を予測する線形モデルを構築する電子商取引小売業者に焦点を当てています。

複数の予測変数を使用する回帰の線形方程式は、以下のように定義されます。:Y = m1*X1 + m2*X2 + m3*X3 (+ more as needed) + b

この例の目標は、年齢、所得、性別、デジタルディスプレイ広告ネットワークを使用して予測されている売上です。したがって、モデルは次のようになります:Sales = m1 * Age + m2 * Income + m3 * Gender + m4 * DisplayNetwork + b

線形回帰ツールは、各予測変数の係数を見つけるのに役立ちます。係数は、売上に対する各予測変数の影響を示します。

4.線形回帰の応用

この例のeコマース小売業者は、より多くの費用を消費すると予測される顧客をターゲットにして売上を増やしたいと考えています。 人口統計およびディスプレイ広告のネットワーク情報を使用して、小売業者はデジタル広告費を最適化して売上を最大化できます。

線形回帰は、さまざまな質問に適用することができ、一般にマーケティング、財務、科学研究に使用されます。

5.線形回帰プロセスの定義

全体的に、線形回帰プロセスには4つのステップがあります。

  • 1.データの準備
  • 2.モデルの構築
  • 3.モデルの評価
  • 4.モデルを使用して新しい予測を実施

6.データの準備

線形回帰モデルを構築する最初のステップは、入力データセットを準備することです。線形回帰ツールは、ターゲット変数と予測変数を含む1つの入力を受け入れます。有効な線形回帰モデルを作成するには、データが次の条件を満たす必要があります。

  • 1.目標変数は定量可能で連続的であり、最小値域と最大値域の間の任意の値(例えば、人の身長)であっても良い。
  • 2.予測変数は連続的であっても離散的であっても良い。
    • 連続的な変数の例:温度、高さ、年齢など
    • 離散的な変数の例:性別、州、郵便番号など
  • 3.線形回帰に必要なデータポイントの最小数または最大数はない。ただし、モデルを作成するために使用するデータポイントの数のバランスをとることが重要。少なすぎると偏りの強いモデルが生成され、あまりにも多く、不必要にリソースを浪費してしまう。
  • 4.目標変数と予測変数の関係は線形であること
  • 5.(このワークフロー外となるが)その他の仮定には以下の様なものが存在する。
    • 変数間のヘテロ分散性が無い
    • 変数間の共線性が無い
    • エラーの値は通常は分散される

7.モデルの構築

線形回帰モデルを作成する前に、入力データセットを2つのグループに分割する必要があります。

  • 大きなグループはトレーニングデータと呼ばれます。
  • 小さなグループはテストデータと呼ばれます。

標準的なプラクティスは、トレーニングにはデータセットの80%、テストには20%を使用することです。 モデルはトレーニングデータセットを使用して作成され、テストデータセットを使用して評価されます。 データセット全体をモデルの訓練とテストに使用した場合、モデルはデータセットによくフィットしますが、新しいデータには一般化されないため、データセットは2つのグループに分割されます。 この問題はオーバーフィッティングと呼ばれ、別のテストデータセットを持つことでその問題を防ぐのに役立ちます。

トレーニングデータセットは、線形回帰ツールの入力として使用されます。

線形回帰ツールは、ターゲット変数と予測変数を選択するように構成され、ワークフローを実行するとモデルが作成されます。

8.モデルの評価

モデルは、スコアツールとテストデータセットを使用して評価できます。 スコアツールは、モデルとテストデータセットを使用してモデルの精度をチェックします。

線形回帰ツールのR出力は、モデルのパフォーマンスに関する有益な情報も提供します。

Alteryxには、モデルの検証や評価に使用できるツールがありますが、このキットではScoreツールのみを使用しています。 ヘルプページには、それらの使用に興味のある他のツールのリストがあります。

9.モデルを使って新しい予測を行う

モデルが合理的に正確であると分かったら、モデルを使用して新しいデータ点の値を予測できます。

スコアツールを使用すると、新しいデータの予測を生成できます。今回の例では、作成した線形モデルを新しい顧客セットに適用し、その費用を予測しています。

10.関連するワークフローについて

当エントリで紹介している「Demand Forecasting(需要予測)」に関するワークフローでは以下2つのワークフローが展開されています。

  • 1.線形回帰のためのデータの準備
  • 2.線形回帰モデルの作成と評価

※注:Predictive ToolsとRがインストールされていることを確認してください。

 

ワークフローの実行・Tableauワークブックの内容確認

今回実行するワークフローはないため、この項は割愛します。

 

まとめ

という訳で、『Alteryx & Tableau 連携 Advent Calendar 2018 』14本目、「Demand Forecasting(需要予測)」前編のご紹介でした。明日のエントリでは実施するワークフローのうちの1つについて見ていきたいと思います。

引き続き、明日もお楽しみに!

Alteryxの導入なら、クラスメソッドにおまかせください

日本初のAlteryxビジネスパートナーであるクラスメソッドが、Alteryxの導入から活用方法までサポートします。14日間の無料トライアルも実施中ですので、お気軽にご相談ください。

alteryx_960x400