Alteryx Designer Cloudのツール紹介:Sampleツール #Alteryx

Alteryx Analytics CloudのDesigner CloudのSampleツールについてご紹介します。
2023.04.15

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんにちは、スズです。

本記事では、Alteryx Analytics CloudのDesigner CloudにあるSampleツールについてご紹介します。

Sampleツールの概要

Sampleツールは、Preparationのカテゴリの中にあります。

Sampleツールは、最初のN行、最後のN行といったサンプリング方法を指定し、データセットの一部を取り出すことができます。

Sampleツールの設定

Sampleツールの設定は、サンプリング方法の設定と、レコードをソートする条件の設定があります。また、オプションとして、グループ化の設定があります。

サンプリング方法

サンプリング方法は、First N Rows、Last N Rows、First N% of rows、1 in N Chance to Include Each Rowがあります。サンプリング方法にあるNには、任意の数字を設定できます。なお、Sampleツールはデータのソートの設定が必須になっており、ソートされた後のデータに対してサンプリングの条件でデータを抽出します。抽出した結果が意図したとおりになるように、ソートの設定を行う必要があります。

以下のデーセットを使って、それぞれのサンプリング方法をみていきます。ここでは、ID列を昇順でソートしています。

First N Rows

First N Rowsは、データセットの最初のN行を抽出します。

以下の例では、N=5と設定しているため、最初の5行のデータが抽出されています。

Last N Rows

Last N Rowsは、データセットの最後のN行を抽出します。

以下の例では、N=5と設定しているため、最後の5行のデータが抽出されています。

First N% of rows

First N% of rowsは、データセットから最初のN%のレコードを抽出します。First N% of rowsでは、行数の計算を行った後、指定された割合でデータを抽出します。出力アンカーにデータが表示されなかった場合は、いったん入力アンカーに表示を切り替えるなどを行うことで、データが表示されます。

以下の例では、N=20と設定しているため、元のデータの10行から最初の2行のデータが抽出されています。

1 in N Chance to Include Each Row

1 in N Chance to Include Each Rowは、各行をサンプルとして抽出するかをランダムに決定します。ヘルプの説明によると、例えば、1,000行のデータセットに対してN=10と設定した場合、75~100行が抽出される可能性があるとあります。

以下の例では、N=2と設定しています。元のデータの10行に対して、4行が抽出されています。

Sample records based on order:

Sampleツールでは、入力アンカーのレコードの順序は維持されません。データの抽出した結果が意図したとおりとなるように、Sample records based on orderにてレコードの順序の指定が必要です。

  • Column Name: ソートの基準となる列
  • Order: ソートの処理の選択
    • Ascending: 昇順
    • Descending: 降順

ソートは複数の条件を設定できます。[Add Column]をクリックすると、条件を追加することができます。

複数のソートの条件がある場合、上から順番に処理されます。条件の順番は、各条件の左端のボタンをクリックしてスライドするか、条件を選択した状態で矢印([Up]と[Down])をクリックすることで、入れ替えることができます。

不要な条件は、ごみ箱のアイコンの[Remove]ボタンで削除できます。

Columns to Group By (Optional)

Columns to Group Byでは、データセットに対してグループ化を行い、グループ化された状態でデータの抽出を行います。サンプリング方法が1 in N Chance to Include Each Rowの場合、グループ化は使用できません。

例として、以下のようなデータに対して、Column1列に対してグループ化を行い、最初の1行を抽出します。

Sampleツールの処理の結果、Column1列の値が同じレコードごとに、最初の1行目が抽出されます。

最後に

Alteryx Analytics CloudのDesigner CloudのSampleツールについてご紹介しました。

参考