Alteryxのデータ調査ツール

こんにちは、小澤です。

Alteryxの利用に限らず、分析を行う際はまずデータの内容や性質の確認から始まります。 今回は、この最初に行うデータの調査に利用できるツールをいくつか紹介していきます。

データ調査のツールとは

Alteryxのツール一覧には「Data Inverstigation」というタブがあります。

スクリーンショット 2017-07-24 17.40.30

これらは、データに対して何かしらの処理を行ったり、分析したりといったものではありません。 データがどのような性質を持つのかというのを確認して、分析に役立てるためのツールになります。

今回はこの中でも特に便利なField Summaryツールを紹介していきたいと思います。 入力データをツールにに流した結果を表示するのみの簡単なワークフローで見ていきます。

スクリーンショット 2017-07-25 9.45.31

Field Summaryツールの動き

このツールは、名前の通り各列のデータをサマライズしたものを出力するためのものになります。 最大値・最小値や平均値、中央値などといったデータに対する統計情報を確認することができます。

image93

ツールの設定は、以下のようになっています。

スクリーンショット 2017-07-24 17.47.43

選択する項目は、対象とする列となっています。 また、オプションでデータに対するサンプリングを行うことも可能です。

つづいて、出力を見てみます。 Field Summaryツールの出力は3つあります。

一番上はサマライズされたデータが結果として主力されます。

スクリーンショット 2017-07-25 9.18.47

以下のような情報が取得できているのが確認できます

  • 変数のタイプ
  • 最大値、最小値
  • 平均値
  • 中央値
  • 標準偏差
  • 欠損値の割合
  • ユニークな値の数

プロットデータでは、各変数の値を確認できます(これは散布図のようなものではなく、横軸が1件1件のデータ、縦軸がその値のようです)

スクリーンショット 2017-07-25 9.27.09

Remarks列には、データが本当にその型であっているか怪しい時にそのメッセージを表示してくれます。

また、文字列の場合は、一見全てがnullになっているように見えますが、スクロールすると以下のように文字列の長さでの最大・最小とそれに属するデータの件数が確認できます。

スクリーンショット 2017-07-25 9.25.21

今回はデータ中に含まれていないため、全てnullになっていますが、さらにスクロールしていくとDate型などの時間を扱うものやSpatial Objectに関するサマリも同様に取得可能なことが、列名から想像できるかと思います。

続いて、2つ目の中央の出力です。 こちらは、先ほどの1つ目の出力を整形して、レポーティングされた形式で出力するものになります。

スクリーンショット 2017-07-25 9.33.06

最後に3つ目の出力ですが、こちらは各列のデータをヒストグラムの形式で出力してくれます。

スクリーンショット 2017-07-25 9.33.59

また、図中にあるようにマウスオーバーで情報を表示してくれるなど、インタラクティブな操作が可能になっています。

終わりに

今回は、Alteryxでデータを調査するための、Field Summaryツールの紹介をしました。 このツール自体がなにか分析をするというわけではありませんが、データ分析を始めるにあたって最初に必要となるデータの性質の確認という点においてはほぼ必須のツールになるかと思います。

Alteryxに興味をお持ちいただいた方はこちらからお問い合わせください。

alteryx_960x400