Decision Tree(決定木) | Alteryx Predictive Tools 道場 Advent Calendar 2018 #06
こんにちは、にいのです。
当エントリは『Alteryx Predictive Tools 道場 Advent Calendar 2018』の06日目のエントリです。
クラスメソッド Alteryx Predictive Tools 道場 Advent Calendar 2018 - Qiita Alteryx Predictive Tools 道場 Advent Calendar | シリーズ | DevelopersIO
前提条件
Alteryxは「Alteryx Designer / Version 2018.4」を利用しています。
Decision Tree(決定木)とは?
対象データが属するカテゴリの分類パターンを発見する手法です。「データ解析の実務プロセス入門」ではSNS利用者を分類するケースを例として紹介されています。
たとえば決定木を用いてSNSの利用者を「継続者カテゴリ」と「離脱者カテゴリ」のどちらかに属するか分類すると、数ある変数のなかから利用者を継続と離脱に分けるのにとくに利いてくる変数を選び出し、その水準まで自動で算出してくれます。ここでは「SNS内の友人数」が分類に有効だと判明し、(中略)「継続に関する重要な変数はSNS内の友人数で、それは43人以上いることが望ましいという知見を得た。より継続者を増やすため、友人数が43人以上の利用者はどのようなSNS活用をし、どのような価値を見出しているのだろうかを探ろう。(中略)などというように考察したり、施策につなげたりできます。
下記エントリでも決定木について解説しております。例によってデータ分析のプロじょんすみすが書いています。
Decision Teeワークフローとは
ワークフローの全体図は以下の通りです。Decision Tree Toolの3つのアンカーにBrowse Toolが繋がっている大変シンプルな作りです。
このワークフローは、Decision Tree Toolを使用して複数の予測変数に基づいてターゲット変数を推定する動作を確認できます。では、さっそくワークフローの中身を見てみましょう。
インプットファイル
今回のインプットファイルは以下の通りです。データの元ネタはMachine Learning RepositoryのStatlog (German Credit Data) Data Set です。このデータではドイツの人々をクレジットリスクの良し悪しで分類しています。1994年のデータですので通過の単位がドイツマルク(DM)となっています。
Decision Tree Tool
設定画面は以下の通りです。
Type model name | モデル名を記入。スペースは全てアンダースコアに変換される。 |
---|---|
Select target variable | 予測したい変数。単一選択。 |
Select predictor variables | 予測に使用する変数。複数選択可。 |
インプットファイルを見ると、予測したい変数としてTarget variableに設定されている「Default」は、Yes
/No
の2種類です。Predictor Variableにセットした項目を使用して「Default」の値を分析していく流れとなります。
このサンプルワークフローでは、Decision Tree Toolの3つのアンカーにBrowse Toolが接続されています。
?Oアンカー
モデル名とオブジェクトのサイズを表示します。サンプルワークフローでの結果は以下の通りです。
?Rアンカー
プロットやサマリを含むモデルのレポートを表示します。サンプルワークフローでの結果は以下の通りです。Tree Plotにて作成された決定木を確認することができます。「Chk_bal」がターゲット変数である「Default」を推定するのに適した予測変数だと判断されたようです。「Chk_bal」が「A13(200DM以上の当座預金を保持もしくは最低1年以上の給与割り当て有り)」または「A14(当座預金口座なし)」である場合に「Default」がYes
であるケースが多くなるということが読み取れます。
?Iアンカー
インタラクティブレポートを表示します。サンプルワークフローでの結果は以下の通りです。Rアンカーでマウスオーバーやクリック等で追加情報も確認可能です。
参考資料
データ解析の実務プロセス入門 Tool Mastery | Decision Tree
おわりに
今回はDecision Tree(決定木)のサンプルワークフローをご紹介しました。このサンプルワークフローでは基本設定を使用していますが、Decision Tree Toolではカスタム設定も使用できます。設定内容はすこし複雑ですが、上記参考資料にも挙げているTool Mastery | Decision Treeでも解説されていますのであわせてご覧ください。
明日7日目のテーマは大高大輔によるForest Model (ランダムフォレスト)です。お楽しみに!
Alteryxの導入なら、クラスメソッドにおまかせください
日本初のAlteryxビジネスパートナーであるクラスメソッドが、Alteryxの導入から活用方法までサポートします。14日間の無料トライアルも実施中ですので、お気軽にご相談ください。