EXCELユーザーのためのAlteryx入門 (2).データクレンジング編 #alteryx

alteryx

EXCELユーザーがAlteryxを使うための"入門編的エントリ"としてトピック別にその内容をご紹介するシリーズ「EXCELユーザーのためのAlteryx入門」。当エントリでは「データクレンジング編」としてデータの整形・不要なデータを加工の過程で削ぎ落とす際に使えそうなトピックについてご紹介して行きたいと思います。

目次

 

列名の変更

 

EXCELの場合

データクレンジング編でまず紹介するのは「列名の変更」です。EXCELの場合列名を変更する際は該当項目のセルを指定して直に項目名称を変更するのが一般的ですね。

excel-to-alteryx_2_01

 

Alteryxの場合

「列名の変更」はAlteryxで一連のワークフローに置き換える事が出来ます。まずは「Input Data」ツールで対象のファイルを入力データとして指定(シートも必要に応じて指定)した後、

excel-to-alteryx_2_02

excel-to-alteryx_2_03

「Preparation」タブにある「Select」ツールを使って変更したい項目の列名を任意の値に変更します("Rename"の部分に変更したい名前を書き入れる形です)。

Select

今回は先頭5項目の列名を変更してみました。

excel-to-alteryx_2_04

「Output Data」ツールアイコンも合わせて使い、「Select」ツールに紐付けた形で出力ファイルを指定します。

出力ファイル名を別途指定し、

excel-to-alteryx_2_05

シート名も合わせて指定します。

excel-to-alteryx_2_06

処理実行。

excel-to-alteryx_2_07

生成された結果を確認してみます。ちゃんと指定した列のヘッダー名が変更されていますね。

excel-to-alteryx_2_08

 

データ型の変更

 

EXCELの場合

データ型の変更を行う場合、EXCELでは任意のセル(や行列)に対して「セルの書式設定」を行う事で指定箇所のデータ型を変更する事が出来ます。

excel-to-alteryx_2_09

 

Alteryxの場合

一方Alteryxでは、任意の列のデータ型を変更したい場合は上述の「Select Tool」を使います。「Type」という設定列があり、ここはデータ読み込み時にAlteryxが自動で型を判別、設定しています。この部分は列毎に設定が可能ですので、以下の様に設定変更を行いたい列のプルダウンを指定し、

excel-to-alteryx_2_10

任意のデータ型に設定変更した上で処理を行えば以降のアウトプットは変更した内容で処理される形となります。

excel-to-alteryx_2_11

 

列の削除

 

EXCELの場合

データに於ける任意の「列を削除」する場合、EXCELでは列を指定した上で右クリックメニューの「削除」を行う事で対応出来ます。

excel-to-alteryx_2_12

 

Alteryxの場合

Alteryxでは「Select Tool」を使います。項目の左側にチェックボックスが用意・設定されているのが「この項目は処理対象とします」という意味合いとなります。ですので、列を削除したい場合はこのチェックを外せばOK、という訳です。下記では「Order Date」「Ship Mode」「Segment」のチェックボックスを外していますので、処理がなされるとこれらの項目は除外される形となります。

excel-to-alteryx_2_13

 

行の削除

 

EXCELの場合

行の削除、ここでは「任意の条件に基づく行を抽出=条件対象外の行を削除」という形としています。EXCELで任意の行を抽出(除去)する場合はフィルタを使う事で実現が可能です。

excel-to-alteryx_2_16

 

Alteryxの場合

Alteryxで「行の削除」を行う際は「Filter Tool」を使います。

Filter

「Select Tool」で選択した内容に対して任意の条件式を割り当て、その条件に含まれるものと含まれないものに振り分ける、という処理を追加します。

excel-to-alteryx_2_14

ツール接続コネクタの部分には「T」と「F」の文字が表示されており、これは条件に合致するもの(T=True)、合致しないもの(F=False)ので振り分けますよ、という意味合いとなります。「Output Tool」をそれぞれ別名で接続します。

excel-to-alteryx_2_17

処理実行後、合致するものを抽出した方のファイルを確認してみます。条件指定に使った列のフィルタを見てみると、指定した条件のデータのみが含まれている事が確認出来ました。

excel-to-alteryx_2_15

 

列の新規作成

 

EXCELの場合

EXCELで列を新しく追加したいとなった場合、最も一般的であろう手段は下記の様な形で任意の計算式を踏まえた形で列として展開する方法が考えられるでしょう。

excel-to-alteryx_2_18

 

Alteryxの場合

Alteryxで同じようなことを行いたい場合は「Formula Tool」を利用します。

Formula

ツールアイコンをドラッグアンドドロップで設定した上で、[Add Column]を選択。

excel-to-alteryx_2_19

既存列をベースにしたものを今回作成したいので、エディタ部分でスペースを押下して候補を表示、任意のカラムを選択します。この画面では任意の列の他、計算式等もこの方法で検索・設定する事が出来ます。

excel-to-alteryx_2_20

その他必要な計算式を設定し、実行。結果は別のファイルとして残したいため、「Output Tool」も合わせて連携しています。

excel-to-alteryx_2_21

実行結果を確認してみます。ちゃんと列が追加されていますね!

excel-to-alteryx_2_22

任意の列を所定の文字列で分割して処理したいというような場合(カンマ区切りの値を分割したい、等)、「Text To Columns Tool」を活用する事も出来ます。

TextToColumns

 

まとめ

という訳で「EXCELユーザーのためのAlteryx入門」第2弾、「データクレンジング編」としてデータの事前準備、ETL周りに関する作業の"Alteryx化"への道筋を概略の形ではありますが紹介したエントリでした。この他にも出来ることはまだまだ沢山ありますので折を見て詳細な内容についてもご紹介出来ればと思います。

参考情報:

日本初のAlteryxビジネスパートナーであるクラスメソッドが、Alteryxの導入から活用方法までサポートします。14日間の無料トライアルも実施中ですので、お気軽にご相談ください。

alteryx_960x400

AWS Cloud Roadshow 2017 福岡