Logistic Regression(ロジスティック回帰) | Alteryx Predictive Tools 道場 Advent Calendar 2018 #09

2018.12.09

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

DI部プリセールスエンジニアの兼本です。

当エントリは『Alteyx Predictive Tools 道場 Advent Calendar』の09日目のエントリです。

クラスメソッド Alteryx Predictive Tools 道場 Advent Calendar 2018 - Qiita

Alteryx Predictive Tools 道場 Advent Calendar | シリーズ | DevelopersIO

前提条件

本シリーズではAlteryx2018.4を使用しています。

どんなサンプル?

Alteryx Designerを起動して、「ヘルプ > サンプルワークフロー > Predictive tool samples > Predictive Analytics > 9 Logistic Regression」から開くことができます。

また、本ワークフローを参照するにはAlteryx Predictive Tools with Rがインストールされている必要があります。

ロジスティック回帰とは?

ロジスティック回帰については、以下リンクにわかりやすい説明がありました。

ロジスティック回帰 - Qiita

曰く、

線形回帰と似ているが、目的変数が2値のときに利用する。 例えば、この人は商品を購入するか否か、棒に当たるか否か、引っ越すか否か、転職するか否かなどなど。

とのことです。 また、弊社じょんすみすも過去にエントリを残しておりますので、あわせてご参照いただければと思います。

ロジスティック回帰をしてみる #alteryx #11 | Alteryx Advent Calendar 2016

何ができる?

サンプルは以下のようなワークフローです。

テキストデータを入力してロジスティック回帰ツールに入力し、3つの出力をしていますね。 サンプルワークフローの説明には以下のように記載されています。

This module demonstrates how to run a Logistic Regression analysis within Alteryx. Logistic Regression allows the user to predict a binary categorical field (such as whether people responded “yes” or “no” to a direct marketing offer) given a set of known predictor fields (such as the recipients age, gender, household income, and drive-time distance to one of the company’s stores). A model using this tool gives the probability for each of the two possible outcomes for a “unit” (household, customer, etc.) given the predictor fields. In the example, the objective is to determine whether a consumer bank customer will default on a loan given characteristics of the loan and characteristics of the customer. このモジュールは、Alteryx内でロジスティック回帰分析を実行する方法を示します。ロジスティック回帰では、既知の予測フィールドのセット(受取人の年齢、性別、世帯収入、勤続年数および会社の店舗のうちのある店舗までの運転時間距離など)を考慮して、バイナリカテゴリ項目(ダイレクトマーケティングオファーに対して人々が「はい」または「いいえ」と回答したかなど)を予測します。 このツールを使用したモデルは、予測フィールドを与えられた「ユニット」(世帯、顧客など)が2つの可能性のうち、どちらになるかの確立を求めます。 この例では、銀行担当者が融資の特徴と顧客の特性を考慮して融資不履行になるかどうかを判断することが目的です。

では、データをみてみましょう。

お、どこかでみたデータですね。 前回、本シリーズ5日目に私が担当した「Plot of Means(標準誤差)」と同じデータを使用しているようです。

このデータの元ネタはMachine Learning RepositoryのStatlog (German Credit Data) Data Setです。このデータはドイツのクレジットリスクに関する分類を示しており、ほかのサンプルワークフローでもよく使われています。

ロジスティック回帰ツール

ロジスティック回帰ツールの設定は以下の通りです。 ターゲット変数として「Default(債務不履行の有無)」を指定し、予測変数としてそれ以外の20項目を選択しています。 ターゲット変数に指定した「Default」がYes|Noの2値になっていることがポイントです。

カスタマイズページ以降で設定するオプションの指定状況は以下の通りです。

閲覧ツール

ロジスティック回帰ツールのアウトプットは3つあり、それぞれ、閲覧ツールが接続されています。 各ノードの出力結果は以下の通りです。

?Oアンカー

モデル名とオブジェクトサイズが出力されています。

?Rアンカー

プロットやサマリを含むモデルのレポートを表示します。

?Iアンカー

インタラクティブレポートを表示します。

まとめ

以上、Logistic Regression(ロジスティック回帰)ワークフローのご紹介でした。 明日10日目はniinoによる「Lift Chart」の予定です。明日もお楽しみに。

Alteryxの導入なら、クラスメソッドにおまかせください

日本初のAlteryxビジネスパートナーであるクラスメソッドが、Alteryxの導入から活用方法までサポートします。14日間の無料トライアルも実施中ですので、お気軽にご相談ください。

alteryx_960x400