Alteryx Designer Cloud のツール紹介:Text to Columns ツール #Alteryx
本記事では、Alteryx Analytics Cloudの Designer Cloud にある Text to Columns Tool ツールについてご紹介します。
Text to Columns ツールの概要
Text to Columns ツールは、Parse カテゴリに属します。
処理の対象となるフィールドと区切り文字(Delimiters)を指定することで、各レコードの値を区切り文字で分割し、新たなフィールドとして追加出力します。
下記のような、コンマ(,
)で住所や郵便番号が区切られた住所を表すデータがあるとします。
一つのフィールドに複数の情報がある値となっていますが、コンマ(,
)を基準に値を異なるフィールドにわけることができれば、後の処理で扱いやすくなる場面があります。
Text to Columns ツールは、このような指定の文字(区切り文字)を基準に値を分割する機能を持つツールです。
分割方法として上図の「Split into Columns(列に分割)」か「Split into Rows(行に分割)」を指定できます。
Text to Columns Tool | Alteryx Analytics Cloud
Text to Columns ツールの設定
ツールの設定画面は下記のようになっています。
各設定項目をみていきます。
処理対象のフィールド指定
- Column to Split
- 分割対象のフィールドを指定します。
- ツールに入力したデータセットのフィールドをドロップダウンリストから選択可能です。
区切り文字の指定
- Delimiters
- 分割時の区切り文字を指定します。
- 区切り文字は複数指定可能です。
上図の場合、コンマ(
,
)のみを指定していますが、下記のように複数の区切り文字を続けて入力することで、それぞれの文字で分割を行えます。
※
,-
と入力。コンマ(,
)とハイフン(-
)の2種類を区切り文字として指定。- 空白文字には下記の特殊文字を使用します。
空白 空白文字 タブ \t 改行 \n スペース \s スペースまたはタブ \s\t
分割方法の指定
ツール設定にあるラジオボタンで「Split into Columns(列に分割)」「Split into Rows(行に分割)」のいずれかを選択し、分割方法を指定します。
- Split into Columns(列に分割)
- このオプションを選択すると、下記の追加設定項目が表示されます。
- Number of Output Columns
- 分割する最大の列数を指定します。
- Output Column Header
- 分割結果は Number of Output Columns で指定した数分、新たなフィールドとして追加出力されるので、各フィールド名の接頭辞を指定します。
- Extra Characters
分割される数が Number of Output Columns を超える際の設定を下記の3つより指定します。- Leave in Last Column
- 最後のフィールドにまとめて出力します。
- Drop with Warning
- 超過分を削除し、実行ログに警告として出力します。
- Drop without Warning
- 超過分を削除し、実行ログに警告も出力しません。
- Leave in Last Column
- Number of Output Columns
- Split into Rows(行に分割)
- このオプションを選択した場合、追加設定が必要な項目はありません。
- 行に分割する場合、分割対象以外のフィールド値は複製されます。
- このオプションを選択すると、下記の追加設定項目が表示されます。
無視する区切り文字の指定
- Delimiters to Ignore
区切り文字の扱い方を下記から指定します。
- None
- 既定の設定です。すべての区切り文字を認識し、値を分割します。
- 区切り文字が連続する場合、NULLの列または行が生成されます。
- Consecutive
- 値の中で区切り文字が連続する場合、連続する区切り文字全体で一つの区切り文字として扱います。 ※区切り文字が連続する際に、NULLの列または行を生成しない。
- In Quotation Marks
- 二重引用符(ダブルクォーテーション
“”
)内の区切り文字は無視します。
- 二重引用符(ダブルクォーテーション
- In Single Quotation Marks
- 一重引用符(シングルクォーテーション
‘’
)内の区切り文字は無視します。
- 一重引用符(シングルクォーテーション
Delimiters to Ignore の実行例
こちらのオプションについては、例とあわせてご紹介します。
- None と Consecutive について
テキストインプットツールで[test]というフィールド名の下記の値からなる一行のデータを与えたとします。
a,,b,,,c
このデータに対し、下記の通り、コンマ(,
)を区切り文字として指定し、「Delimiters to Ignore」には「None」を指定したとします。
この場合の出力は下記のようになります。
区切り文字が連続する部分は、NULLとして出力されます。
※Number of Output Columns に 6 設定
次に、「Delimiters to Ignore」のみ「Consecutive」と変更すると、下記のようになり区切り文字が連続することによるNULLは出力されなくなります。
※後半のNULLは、Number of Output Columns に 6 を設定しており分割数よりも追加出力フィールド数が多いために出力されています。
- In Quotation Marks と In Single Quotation Marks について
- In Quotation Marks
下記のような値を、スペース(\s
)で分割するとします。
- In Quotation Marks
"I'm going to take a nap," declared John.
下記の通り、既定の「None」を指定します。
ツール設定
出力
赤枠が追加出力されたフィールドです。
この設定では、二重引用符(ダブルクォーテーション “”
)内の区切り文字(スペース)であっても、分割の対象となっています。
「Delimiters to Ignore」を「In Quotation Marks」に変更した際の出力は、下記の通りです。
※他の設定は同様。
赤枠の部分は、区切り文字として指定したスペースがりますが、二重引用符( “”
)内にあるので、この部分では分割されないようになります。
「In Single Quotation Marks」についても同様で、この場合は一重引用符(シングルクォーテーション ‘’
)内の区切り文字では分割が行われないことになります。
さいごに
Alteryx Analytics Cloud の Designer Cloud の Text to Columns ツールについてご紹介しました。