Alteryxのサンプリングツール比較

Alteryxのサンプリングツール比較

Clock Icon2018.03.06

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんにちは、小澤です。

Alteryxには以下のようなツールがあります。

  • Sample
  • Random % Sample
  • Create Samples
  • Oversample Field

これらはいずれも、「Sample」という単語が入ったツールになっていますが、 どのような違いがあるのでしょうか?

今回は、それぞれのツールの動きを見ていきたいと思います。

Sampleツール

まずは、Sampleツールを見ていきましょう。

このツールの設定項目は以下のようになっています。

設定項目としては

  • 抽出方法を5つの中から選択する
  • Nの値
  • グループ化する場合の対象

の3つなっています。

抽出方法に関してはNの値に依存した以下のような動きをします。

項目 動き
First N Records 先頭からN件を取得
Last N Records 末尾からN件を取得
Skip 1st N Records 先頭からN件を読み飛ばす
1 of every N Records 1/Nになるようにデータを抽出。結果は毎回固定
Random 1 in N Chance for each Record だいたい1/Nになるようにランダムに抽出。結果や件数は毎回異なる
First N% of Record 先頭からN%分取得

このツールは、「Random 1 in N Chance for each Record」という設定はあるものの、乱数のシードの指定ができるようなものでなかったり、取得する件数もかなりブレがあります。

そのため、特定の規則性に基づいて、データの取得を行うツールという風にとらえておくといいでしょう。

Ramdom % Sampleツール

続いては、Random % Sampleツールを見ていきます。

このツールの設定は以下のようになっています。

このツールでできることはランダムサンプリングです。 データ全体に対して無作為抽出されます。

ツール名には「%」と入っていますが、上側の「Random N Records」を指定することで、出力する件数を指定できます。 下側のRandom N% of Recordsはパーセンテージでの指定です。

このツールでは、「Deterministic Output」にチェックをいれてRamdom Seedを固定することで、 サンプリング結果を固定することができます。

Create Sampleツール

続いては、Create Sampleツールです。

こちらのツールはすでに機械学習系のツールを利用する際に合わせて使っているのを紹介しているかと思います。

ツールの設定は以下のようになっています。

機械学習ではデータを、学習用・検証用・テスト用と分けて利用します。 その際にそれぞれを指定した割合でランダムに分割するためのツールとなります。 ツールの出力も3つあります。

このツールの設定はややわかりづらいですが、 「Estimation sample percent」で学習用データの割合、「Validation sample percent」で検証データの割合を指定します。テストデータに関しては、これら2つの割合を100%から引いたのこりとなります。

上記画像のような設定であれば、

  • 学習データ : 34%
  • 検証データ : 33%
  • テストデータ : 33% (100 - 34 + 33)

となります。 また、Random seedの値も設定できます。

Oversample Field

「Sample」という単語が名前につくツールの最後としてOversample Fieldツールです。

こちらも先ほどのCreate Sampleツールで紹介した記事にて解説していますが、 データのラベル数を均衡にするためのツールとなります。

設定は以下のようになっています。

  • 1番上で設定したフィールド中の
  • 2つの項目で設定した値を持つレコード数が
  • 3つ目で指定した割合になる

ようにデータの抽出を行います。

例えば、データ中の予測したいラベルが含まれるlabelフィールドに「yes」が100件「no」が900件含まれるようなデータがるとします。 このデータでは「yes」の割合は10%です。 この時、3つの設定値は

  • label
  • "yes"
  • 50%

のような設定にします。 すると、データ中の「yes」の割合が50%になるように、データ数が調整されます。 ただし、この場合だと「no」が100件になり、大幅にデータ減ったりするので注意も必要です。

おわりに

今回は、「Sample」という単語が含まれるツールがそれぞれ、 どのようなことができるのかというのを解説しました。

わかってみるとやりたいことはそれぞれ明確なのですが、最初は混乱してしまうかもしれません。 そういった際はこちらを参照していただければと思います。

Alteryxの導入なら、クラスメソッドにおまかせください

日本初のAlteryxビジネスパートナーであるクラスメソッドが、Alteryxの導入から活用方法までサポートします。14日間の無料トライアルも実施中ですので、お気軽にご相談ください。

alteryx_960x400

Share this article

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.