データの確認をしよう- 今日からはじめるAlteryx再入門アドベントカレンダー

データの確認をしよう- 今日からはじめるAlteryx再入門アドベントカレンダー

Clock Icon2020.12.08

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんにちは。
Alteryx絶賛勉強中のshoです。

当エントリは2020年アドベントカレンダー『今日からはじめるAlteryx 再入門』の08日目のエントリになります。

このアドベントカレンダーの企画は、Developers.IOにてAlteryxの情報をお届けしてきたメンバーによるAlteryxを1から学べるシリーズになっています。Alteryx触ってみたい!という方の入門記事として、Alteryx使っているけど改めて基礎から学びたい!という方の再入門記事としてご活用いただければ幸いです。

8日目の今日は「データの確認をしよう」をお届けします。

Alteryx Designerでワークフローを実行した際、結果ウィンドウにて各入力・出力アンカーのデータを確認することができますが、メモリを確保するため最大1MBまで表示されます。
データが1MB以上あり、全データを確認したい場合には、閲覧ツールを使用します。
閲覧ツールを使用することで、結果ウィンドウにて全データが確認できるだけでなく、設定ウィンドウにて各フィールドのプロファイル情報を確認することができるため非常に便利なツールです。
以前は、フィールドの詳細な情報を確認するためにはフィールドサマリーツールを使用する必要がありましたが、2020.1にて新たに追加された機能によって閲覧ツールでもプロファイル情報が確認できるようになりました。

各フィールドのプロファイル情報を確認しよう

Alteryx Designerでワークフローを実行し、閲覧ツールをクリックすると、左の設定ウィンドウにて各フィールドに含まれているデータの値が確認できるようになっています。


ここから、結果ウィンドウにてフィールドを選択する、もしくは設定ウィンドウにてフィールドを選択することでその対象のフィールドに関する詳細なプロファイル情報が表示されます。

詳細なプロファイル情報より、取り込んだデータに不審なデータ(本来存在しない、もしくは取り込まれるべきではないデータ)がないか確認できるだけでなく、集計や分析を実施する前にクレンジングが必要なデータがないか確認することもできます。

設定ウィンドウにて確認できる情報はデータ型によって異なるため、今回は各データ型で確認できる情報を見ていきたいと思います。

【文字列型】

サマリー

  • データ型・レコード数・データ型のサイズ
  • データの品質
    • OK:値に先頭や末尾にスペースや空白がない、データのクレンジングが不要なデータ
    • ユニーク:フィールド内のユニークな値の数と全体の占める割合
    • Null:空白(NULL)の数と全体を占める割合(※空の値は対象外)
    • OKではない:値に先頭や末尾にスペースや空白が含まれる、データのクレンジングが不要な可能性のあるデータ
    • 空:空の値の数と全体を占める割合

長さの統計

  • 最小:最小文字数
  • 最大:最大文字数
  • 平均:平均文字数
  • 最短値:最短文字列
  • 最長値:最長文字列
  • 最初の英数字値:英数字順の最初の文字列
  • 最後の英数字値:英数字順の最後の文字列
  • 空白:空白のレコード数
  • 先頭スペースのある値:接頭にスペースのある行数
  • 末尾スペースのある値:末尾にスペースのある行数

頻出値

  • 上位50位の値・その値の数・全体を占める割合

上位値

  • 最も多いデータの値とその数

設定ウィンドウでは上位5位の値が表示され、詳細をクリックするとそれ以降の上位値を確認することができ、最大1000個の上位値が表示されます。

【数値型】

サマリー

  • データ型・レコード数・データ型のサイズ
  • データの品質
    • OK:値に先頭や末尾にスペースや空白がない、データのクレンジングが不要なデータ
    • ユニーク:フィールド内のユニークな値の数と全体の占める割合
    • Null:空白(NULL)の数と全体を占める割合(※空の値は対象外)
    • OKではない:値に先頭や末尾にスペースや空白が含まれる、データのクレンジングが不要な可能性のあるデータ
    • 空:空の値の数と全体を占める割合

値の統計

  • 最大値
  • 最小値
  • 第1四分位数
  • 第3四分位数
  • 平均
  • 標準偏差
  • 中央値
  • バリアンス(分散)

上位値

  • 最も多いデータの値とその数

設定ウィンドウでは上位5位の値が表示され、詳細をクリックするとそれ以降の上位値を確認することができ、最大1000個の上位値が表示されます。

【日付型】

サマリー

  • データ型・レコード数・データ型のサイズ
  • データの品質
    • OK:値に先頭や末尾にスペースや空白がない、データのクレンジングが不要なデータ
    • ユニーク:フィールド内のユニークな値の数と全体の占める割合
    • Null:空白(NULL)の数と全体を占める割合(※空の値は対象外)
    • OKではない:値に先頭や末尾にスペースや空白が含まれる、データのクレンジングが不要な可能性のあるデータ
    • 空:空の値の数と全体を占める割合

値の統計

  • 上位50位の値・その値の数・全体を占める割合
  • 最大値:最新日付
  • 最小値:いちばん過去の日付

上位値

  • 最も多いデータの値とその数

設定ウィンドウでは上位5位の値が表示され、詳細をクリックするとそれ以降の上位値を確認することができ、最大1000個の上位値が表示されます。

グループ化された値

  • 日付・日時情報をグループ化し、各データの件数

【空間オブジェクト型】

空間オブジェクト型については、マップタブにて該当の空間オブジェクト情報が地図上に表示されます。

まとめ

今回は、閲覧ツールを使用したデータの確認に関してご紹介しました。
閲覧ツールでは全件データを確認することができ、ワークフロー作成時にとても便利な機能になりますが、メモリの消費量が増える要素のひとつでもあります。
そのため、閲覧ツールを使用する際には、ご注意ください。

明日のテーマは「地理空間情報を扱おう」になります!!お楽しみに!!

Share this article

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.