Alteryxでマーケットバスケット分析をやってみた
環境
・Windows 10 Pro
・Alteryx Designer 2022.3.1.395
事前準備
Alteryx Designerをインストールしただけでは予測ツールを使用できないため、事前にAlteryx Predictive Toolsのパッケージをインストールする必要があります。Alteryx Predictive Toolsとは、Rツールとも呼ばれるRベースの予測ツールのパッケージです。ライセンスポータルからインストーラをダウンロードすることができます。
参考:Alteryx DesignerとPredictive Toolsのインストール手順
使用ツールの紹介
- MBルール
トランザクションデータを変換してアソシエーションルールやアイテムセットを作成するツール。出力アンカー「R」ではルールの要約レポートを、出力アンカー「O」ではさらに調査できるオブジェクトをが生成されます。 - MB検査
入力としてMBルールの出力アンカー「O」オブジェクトを取り込み、ルールやアイテムセットのフィルタリングや分析を行うツール。MB検査ツールの出力アンカー「O」では作成したアソシエーションルールの結果を、出力アンカー「R」では設定したフィルタリングの概要やアソシエーションルールの関係を表したプロット図などが生成されます。
やってみた
作成したワークフロー
以下のようにワークフローを設定しました。それぞれ設定内容を確認していきます。
入力データ
サンプルのトランザクションデータを使用しました。Transaction_IDとそれに紐づく購入アイテムのリストが入っています。
MBルール
- 設定内容
-
入力データ構造
アイテムを識別するフィールドとそのアイテムが含まれていたトランザクションが入っているフィールドをそれぞれ選択 -
ルールまたは項目セットでのサポートの最小必要レベル
サポート(支持度)※の最小レベルを0.002〜1の範囲で設定します。この値が小さいほど返されるルールの数が多くなるため、システムメモリの使用量に影響するため小さすぎる値の使用は避けることを推奨されているそうです。つまり処理が重くならないようこのフィルタを設定しましょう、ということのようです。
※サポートの説明は後述 -
ルールの最低限必要なレベルの信頼度
前項と同様に、処理が重くならないようにこの信頼度※の最小レベルを設定するようです。
※信頼度についても後ほど後述
MB検査
-
設定内容
-
アソシエーションルールの最小リフトレベル
レポートに表示するリフト値※の最小レベルを設定します。
※リフト値については後述
レポート結果
最後にMB検査の出力アンカー「O」に閲覧ツールを接続し、結果を確認します。
- 各項目の説明
項目 説明 LHS アソシエーションルールの左辺のアイテム RHS 各アソシエーションルール内の右辺のアイテム Support 支持度。LHSとRHSが同時に購入される件数 ÷ 全トランザクション数。つまり全体の中で該当の組み合わせが起こる割合です。支持度を確認することで全体ボリュームの中であまり起こらない組み合わせを省くなど、分析を効率的に行うことができます。 Confidence 信頼度。LHSとRHSが同時に購入される件数 ÷ LHSが購入された件数。つまりLHSを購入した人のうちRHSも購入される割合。 Lift リフト値。Confidence ÷ (RHSが購入される件数 ÷ 全トランザクション数)。つまりLHSの商品を購入した際にRHSも購入される割合と、RHSの全体の買い上げ率の構成比率。値が高いほど、組み合わせの相関が高いといえます。
最後に
今回はMBツールを使用してバスケット分析を行いました。設定方法や設定内容の意味を理解するまでに少し混乱した部分もありましたが、実際に行ってみると簡単なステップで分析が完了するので、非常に便利なツールだと感じました。私自身理解に躓いた部分について詳しく解説してみましたので、是非参考にしていただきながら試してみてください。