Alteryxのデータ調査ツール
こんにちは、小澤です。
Alteryxの利用に限らず、分析を行う際はまずデータの内容や性質の確認から始まります。 今回は、この最初に行うデータの調査に利用できるツールをいくつか紹介していきます。
データ調査のツールとは
Alteryxのツール一覧には「Data Inverstigation」というタブがあります。
これらは、データに対して何かしらの処理を行ったり、分析したりといったものではありません。 データがどのような性質を持つのかというのを確認して、分析に役立てるためのツールになります。
今回はこの中でも特に便利なField Summaryツールを紹介していきたいと思います。 入力データをツールにに流した結果を表示するのみの簡単なワークフローで見ていきます。
Field Summaryツールの動き
このツールは、名前の通り各列のデータをサマライズしたものを出力するためのものになります。 最大値・最小値や平均値、中央値などといったデータに対する統計情報を確認することができます。
ツールの設定は、以下のようになっています。
選択する項目は、対象とする列となっています。 また、オプションでデータに対するサンプリングを行うことも可能です。
つづいて、出力を見てみます。 Field Summaryツールの出力は3つあります。
一番上はサマライズされたデータが結果として主力されます。
以下のような情報が取得できているのが確認できます
- 変数のタイプ
- 最大値、最小値
- 平均値
- 中央値
- 標準偏差
- 欠損値の割合
- ユニークな値の数
プロットデータでは、各変数の値を確認できます(これは散布図のようなものではなく、横軸が1件1件のデータ、縦軸がその値のようです)
Remarks列には、データが本当にその型であっているか怪しい時にそのメッセージを表示してくれます。
また、文字列の場合は、一見全てがnullになっているように見えますが、スクロールすると以下のように文字列の長さでの最大・最小とそれに属するデータの件数が確認できます。
今回はデータ中に含まれていないため、全てnullになっていますが、さらにスクロールしていくとDate型などの時間を扱うものやSpatial Objectに関するサマリも同様に取得可能なことが、列名から想像できるかと思います。
続いて、2つ目の中央の出力です。 こちらは、先ほどの1つ目の出力を整形して、レポーティングされた形式で出力するものになります。
最後に3つ目の出力ですが、こちらは各列のデータをヒストグラムの形式で出力してくれます。
また、図中にあるようにマウスオーバーで情報を表示してくれるなど、インタラクティブな操作が可能になっています。
終わりに
今回は、Alteryxでデータを調査するための、Field Summaryツールの紹介をしました。 このツール自体がなにか分析をするというわけではありませんが、データ分析を始めるにあたって最初に必要となるデータの性質の確認という点においてはほぼ必須のツールになるかと思います。
Alteryxに興味をお持ちいただいた方はこちらからお問い合わせください。