Alteryxで入力データをキレイにする

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんにちは、小澤です。

分析を行うに際して、データというのはなぜかいつも汚いままのものが残っています。 "汚いデータ"の定義は様々ありますが、今回は自由入力のようなものに入れられるテキストデータ+αくらいのものを扱えるツールを紹介したいと思います。

Data Cleansingツール

汚いデータを綺麗にするData Cleansingツール、読んで字のごとくなツールですね。

このツールの設定は以下のようになっています。

内容としては、データのクレンジングとして"何を実行するか"の選択肢がいくつかあるような状態になっています。 どのような設定を行うのか順にみていきましょう。

対象となる列の選択

最初にクレンジング対象の列を選択します。

Data Cleansingツールはこの後登場する、「Nullを0にする」設定以外はすべて文字列に対する処理となっています。

Nullの置換

続いては、Nullが入ってる値の置換に関する設定です。

ここでの設定項目は以下のようになっています。

項目 内容
Replace with Blanks(String Fields) 文字列のフィールドでNullのものを空文字にする
Replace with 0(Numeric Fields) 数値のフィールドでNullのものを0にする

数値の変換に関しては、Nullを0にすることで意味合いが変わってきてしまうこともあるので利用する際にはご注意ください。

不要な文字の削除

こちらは、文字列中の不要な文字の削除を行う設定になっています。

各項目は以下のようになっています。

項目 内容
Leanding and Trailing Whitespace 文字列の先頭と末尾の空白文字を削除する
Tab, Line Breaks, and Duplicate Whitespace タブ文字、改行文字、2つ以上の連続した空白文字を1つのスペース文字に置き換える
All Whitespace 全ての空白文字を削除する
Letters 文字(数字以外)を削除する。アルファベット以外の日本語文字も含まれるが、全角数字は対象外
Numbers 数字を削除する
Punctuation 記号を削除する

大文字小文字の修正

最後は大文字小文字の修正を行う項目になります。

こちらは「Modify Case」にチェックを入れたうえでどの修正を行うかを以下の3つから選択します。

項目 内容
Upper Case 全てのアルファベットを大文字に置換
Lower Case 全てのアルファベットを小文字に置換
Title Case 各単語の先頭の文字を大文字、それ以外を小文字に置換

実際の動きを見てみるには?

Data Cleansingツールの動きを説明したサンプルワークフローが用意されています。

Help > Sample Workflows > Learn one tool at a time > Preparation > Data Cleansing

を選択すると、いくつかの設定を行なった時の動作を確認できるワークフローが開きます。

おわりに

今回は、入力データをキレイにするためのData Cleansingツールの紹介をしました。

実際にデータの前処理を行う際にはここで設定できる以外にも様々な加工が必要になる場面も多くありますが、このツールでできる基本的なことは多くの場面で必須になってくるかと思いますので是非ご活用ください。

Alteryxの導入なら、クラスメソッドにおまかせください

日本初のAlteryxビジネスパートナーであるクラスメソッドが、Alteryxの導入から活用方法までサポートします。14日間の無料トライアルも実施中ですので、お気軽にご相談ください。

alteryx_960x400