22.Violin Plots(バイオリンプロット) | Alteryx Predictive Tools 道場 Advent Calendar 2018 #22

2018.12.22

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんにちは、にいのです。

当エントリは『Alteryx Predictive Tools 道場 Advent Calendar 2018』の22日目のエントリです。このアドベントカレンダーもゴールが見えてきました。やはりクリスマスはデータ分析、データ分析といえばPredictive Toolsです。

クラスメソッド Alteryx Predictive Tools 道場 Advent Calendar 2018 - Qiita Alteryx Predictive Tools 道場 Advent Calendar | シリーズ | DevelopersIO

前提条件

Alteryxは「Alteryx Designer / Version 2018.4」を利用しています。

サンプルワークフローとは?

Alteryxでは、Predictive Toolを使用したサンプルワークフローを参照することができます。[Help]→[Sample Workflows]→[Predictive Tool samples]→[Predictive Analytics]から参照可能です。参照にはAlteryx Predictive Tools with Rがインストールされている必要があります。今回は22.Violin Plotsを使用しています。

Violin Plot Tool(バイオリンプロットツール)とは?

読んで字のごとく、以下のようなViolin Plotを作成してくれるツールです。図の幅が薄い部分は同じような値のデータが少なく、逆に厚い場合は多くのデータがあるということになります。

そもそもViolin Plotというのは、データの分布を表すヒストグラムと、データのばらつきを表現する箱ひげ図の要素を併せ持ちます。以下エントリでViolin Plotの解説をしておりますので、あわせてご覧ください。

使用シーンのイメージが少し湧きづらいかもしれませんが、実際にViolin Plot Toolを使っているサンプルを見てみましょう。

サンプルワークフローを読み解く

ワークフローの全体図は以下の通りです。

インプットデータ

南カリフォルニアにおける、2年間にわたる月次の卵の売上情報です。

Violin Plot Toolその1(全期間の売上数を可視化)

まずは1つめのViolin Plot Toolから確認しましょう。このツールにはMain ConfigurationGraphics Optionsの2種類があります。

Main Configurationでは、以下の値が設定可能です。

項目 説明 
Field to plot 図をつくる対象となる項目を指定
Plot by groups... グループ化する場合はチェック、しない場合は図は1つだけとなる
Enter a title for the plot(Optional) 図の名前(任意)

今回のケースでは以下の内容で設定されています。売り上げた卵のケース数を全期間を通してViolin Plot化するという設定です。

Graphics Optionsでは、出力する図そのものの見た目について設定が可能です。

項目 説明 
Plot size 図のサイズをインチかセンチどちらかの単位で指定が可能
Graph Resolution グラフの解像度を1x〜3xの間で指定する
Base font size(points) フォントサイズ

今回のサンプルワークフローでは以下の通りの設定値となっております。

出力結果

全期間を集計したため、図は1つだけとなっています。一番厚みのある部分は100000ですので、売り上げたケース数は約100000個の場合が最も多いということが読み取れます。

Violin Plot Toolその2(月次の売上数を可視化)

1つめのツールでは全期間を通した売上ケース数を可視化しましたが、2つめのツールでは月別での売上ケース数を可視化します。先述した「Plot by groups... 」にチェックを入れ、どの値でグループ化するかを入力します。今回は月次の売上を見るため、「Month」がセットされています。

Graphics Optionsでは図が縦に長くなるように設定されています。後述の出力図を見れば一目瞭然ですが、縦長の図が出力されるのでそれに合わせた調整がされているようです。

出力結果

月別の結果が表示されました。卵が多く消費されるイースター祭のある4月を見ると、最も幅広いレンジの売上数があることがわかります。横軸の項目数(月)が多いため、一部表示されていない月がありますね。そのような場合はGraphics Optionsで調整しましょう。width:10に設定したところ、全ての月が表示されるようになりました。

Reporting Elements

最後に作成した図をPDFにしてみましょう。Layout ToolとRender Toolで実現しています。PDF化の詳細については以下エントリをご確認ください。

ワークフロー実行後、Result WindowのRender Toolの項目にリンクが生成されます。ここをクリックすることでPDF化されたデータを確認することができます。

出力イメージは以下の通りとなります。

おわりに

今回はViolin Plot Toolのサンプルワークフローをご紹介しました。サンプルデータのように、データの分布を知りたい場合に便利ですのでぜひお試しください。明日の当番も私、にいのです!テーマは「23.Count Regression and Gamma Regression(カウントデータ分析とガンマ回帰)」です。お楽しみに!

Alteryxの導入なら、クラスメソッドにおまかせください

日本初のAlteryxビジネスパートナーであるクラスメソッドが、Alteryxの導入から活用方法までサポートします。14日間の無料トライアルも実施中ですので、お気軽にご相談ください。

alteryx_960x400