Alteryx Designer Cloud のツール紹介:Text to Columns ツール #Alteryx

2023.04.06

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

本記事では、Alteryx Analytics Cloudの Designer Cloud にある Text to Columns Tool ツールについてご紹介します。

Text to Columns ツールの概要

Text to Columns ツールは、Parse カテゴリに属します。

処理の対象となるフィールドと区切り文字(Delimiters)を指定することで、各レコードの値を区切り文字で分割し、新たなフィールドとして追加出力します。

下記のような、コンマ(,)で住所や郵便番号が区切られた住所を表すデータがあるとします。

一つのフィールドに複数の情報がある値となっていますが、コンマ(,)を基準に値を異なるフィールドにわけることができれば、後の処理で扱いやすくなる場面があります。

Text to Columns ツールは、このような指定の文字(区切り文字)を基準に値を分割する機能を持つツールです。

分割方法として上図の「Split into Columns(列に分割)」か「Split into Rows(行に分割)」を指定できます。

Text to Columns Tool | Alteryx Analytics Cloud

Text to Columns ツールの設定

ツールの設定画面は下記のようになっています。

各設定項目をみていきます。


処理対象のフィールド指定

  • Column to Split
    • 分割対象のフィールドを指定します。
    • ツールに入力したデータセットのフィールドをドロップダウンリストから選択可能です。

区切り文字の指定

  • Delimiters
    • 分割時の区切り文字を指定します。
    • 区切り文字は複数指定可能です。 上図の場合、コンマ(,)のみを指定していますが、下記のように複数の区切り文字を続けて入力することで、それぞれの文字で分割を行えます。

    ,- と入力。コンマ(,)とハイフン(-)の2種類を区切り文字として指定。

    • 空白文字には下記の特殊文字を使用します。
      空白 空白文字
      タブ \t
      改行 \n
      スペース \s
      スペースまたはタブ \s\t

分割方法の指定

ツール設定にあるラジオボタンで「Split into Columns(列に分割)」「Split into Rows(行に分割)」のいずれかを選択し、分割方法を指定します。

  • Split into Columns(列に分割)
    • このオプションを選択すると、下記の追加設定項目が表示されます。
      • Number of Output Columns
        • 分割する最大の列数を指定します。
      • Output Column Header
        • 分割結果は Number of Output Columns で指定した数分、新たなフィールドとして追加出力されるので、各フィールド名の接頭辞を指定します。
      • Extra Characters
        分割される数が Number of Output Columns を超える際の設定を下記の3つより指定します。

        • Leave in Last Column
          • 最後のフィールドにまとめて出力します。
        • Drop with Warning
          • 超過分を削除し、実行ログに警告として出力します。
        • Drop without Warning
          • 超過分を削除し、実行ログに警告も出力しません。
    • Split into Rows(行に分割)
      • このオプションを選択した場合、追加設定が必要な項目はありません。
      • 行に分割する場合、分割対象以外のフィールド値は複製されます。

無視する区切り文字の指定

  • Delimiters to Ignore
    区切り文字の扱い方を下記から指定します。
  • None
    • 既定の設定です。すべての区切り文字を認識し、値を分割します。
    • 区切り文字が連続する場合、NULLの列または行が生成されます。
  • Consecutive
    • 値の中で区切り文字が連続する場合、連続する区切り文字全体で一つの区切り文字として扱います。 ※区切り文字が連続する際に、NULLの列または行を生成しない。
  • In Quotation Marks
    • 二重引用符(ダブルクォーテーション “”)内の区切り文字は無視します。
  • In Single Quotation Marks
    • 一重引用符(シングルクォーテーション ‘’)内の区切り文字は無視します。

Delimiters to Ignore の実行例

こちらのオプションについては、例とあわせてご紹介します。

  • NoneConsecutive について
    テキストインプットツールで[test]というフィールド名の下記の値からなる一行のデータを与えたとします。
a,,b,,,c

このデータに対し、下記の通り、コンマ(,)を区切り文字として指定し、「Delimiters to Ignore」には「None」を指定したとします。

この場合の出力は下記のようになります。

区切り文字が連続する部分は、NULLとして出力されます。
※Number of Output Columns に 6 設定

次に、「Delimiters to Ignore」のみ「Consecutive」と変更すると、下記のようになり区切り文字が連続することによるNULLは出力されなくなります。
※後半のNULLは、Number of Output Columns に 6 を設定しており分割数よりも追加出力フィールド数が多いために出力されています。

  • In Quotation MarksIn Single Quotation Marks について
    • In Quotation Marks
      下記のような値を、スペース(\s)で分割するとします。
"I'm going to take a nap," declared John.

下記の通り、既定の「None」を指定します。

ツール設定

出力
赤枠が追加出力されたフィールドです。

この設定では、二重引用符(ダブルクォーテーション “”)内の区切り文字(スペース)であっても、分割の対象となっています。


「Delimiters to Ignore」を「In Quotation Marks」に変更した際の出力は、下記の通りです。
※他の設定は同様。

赤枠の部分は、区切り文字として指定したスペースがりますが、二重引用符( “”)内にあるので、この部分では分割されないようになります。

「In Single Quotation Marks」についても同様で、この場合は一重引用符(シングルクォーテーション ‘’)内の区切り文字では分割が行われないことになります。

さいごに

Alteryx Analytics Cloud の Designer Cloud の Text to Columns ツールについてご紹介しました。