[Alteryx Designer:ツールのご紹介]ユニークツールについて
Alteryx絶賛勉強中のshoです。
はじめに
セルフサービス分析ツールであるAlteryxでは、製品に関する認定試験を受けることができ、初級から中級レベルの試験が、Alteryx Designer Coreとなっています。
Alteryxの認定試験の詳細については、こちらにて紹介しています。
Alteryx Designer Coreを受験するにあたっては、各種ツールの理解を深めておく必要があります。
今回は以下のページから、“ユニーク”ツールについて学んで行きたいと思います。
ユニークツール(Unique Tool)
ユニークツールは、重複したデータを削除するツールです。
重複したデータを削除することでより正確な分析が可能となるため、とても便利なツールです。
重複対象とするデータ項目は複数選択することができます。
ユニークな値は出力アンカーの“U”(Unique)に、重複した値は出力アンカーの“D”(Duplicates)に出力されます。
ユニークツールは、以下のいずれかの方法でワークフローに追加します。
- ツールの一覧から“準備”カテゴリにあるユニークツールを選択し、キャンバスにドラッグ
- キャンバス内にて、右クリックより“挿入”を選択し、“準備”カテゴリにあるユニークツールを選択
- 右上の検索画面にて“unique”と入力し、ユニークツールを選択
データは、クラスメソッドのオフィス情報を取り込みました。
さて、それではユニークツールにて単一のデータ項目を選択した場合と複数選択した場合の結果について見てみたいと思います。
1つの列を選択
まず、ユニークな値を検索するための列を“都道府県”という1項目のみを指定してみました。
その結果がこちら
ユニークな値として出力されたデータ
重複した値として出力されたデータ
東京には、4つのオフィスがあるので、本社以外のオフィス情報が重複したデータとして出力されました。
重複対象となったオフィスを使っているので何だか少し寂しくなりました・・・
さて!!気を取り直して今度は複数列を指定してみたいと思います。
複数列を選択
今度は、ユニークな値を検索するための列にて“郵便番号”“都道府県”を指定してみました。
その結果がこちら
ユニークな値として出力されたデータ
重複した値として出力されたデータ
東京オフィスは、秋葉原と岩本町にあるので、岩本町の中でも目と鼻の先にある2つのオフィスが重複したデータとして出力されました。
在宅勤務となって2カ月以上経過した今、そして一部オフィスが解約されることを全社朝礼で知った今、とても寂しくなってしまいました・・・
それはさておき、ここからはユニークツールのポイントを!!
ユニークツールのおさえておきたいポイント
ユニークツールは、データを上から順番に読み込み、重複するデータがあった場合に、“D”アンカーに出力します。 そのため、同じ値の項目がデータ内に複数存在した場合、一番最初の値が固有の値として認識され、それ以降は重複した値となります。
そのため、データが順不同となっている場合は、事前にソートツールを使用して表示順を事前に変更する必要があります。
また、データ項目内に英語の大文字小文字(例:a・A b・Bなど)があった場合、同一の文字と認識しません。
そのため、大文字小文字関係なく同一の文字として認識させたい場合は、別ツール(データクレンジング)などを使用してデータを綺麗な状態にした上で、ユニークツールを使用する必要があります。
データクレンジングツールについては、また別エントリにてご紹介します。
最後に
Alteryx Designerのユニークツールについて、まとめてみました。
不要なデータを削除し、正確なデータ分析を実施する際に便利なツールとなります。ぜひユニークツールをご活用ください。
Alteryxの導入なら、クラスメソッドにおまかせください
日本初のAlteryxビジネスパートナーであるクラスメソッドが、Alteryxの導入から活用方法までサポートします。14日間の無料トライアルも実施中ですので、お気軽にご相談ください。