Tableauの関数を全て試してみる〜集計関数編その2〜 #tableau

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

はじめに

こんにちは。DI部のtamaです。

当エントリはTableau Functions Advent Calendar 2017の18日目のエントリです。
昨日のエントリはTableauの関数を全て試してみる〜集計関数編その1〜でした。

今回も引き続き、集計関数を見ていきます。
※MAX関数は数値関数その3で紹介したので、省いています。

  • 使用するTableauのバージョンは一貫して10.4.1です。
  • 各関数の説明で引用しているのは、Tableauの公式リファレンスからの引用です。

 

検証環境

作業環境

  • MacOS High Sierra 10.13.1
  • Tableau 10.4.1

使用データ

  • (原則)Tableau付属のサンプルスーパーストア
  • (場合によって)関数グラフ描画用データ

 

COUNTD(expression)

概要

グループ内の個別のアイテムの数を返します。Null 値は数に含まれません。この関数は、Tableau Desktop 8.2 以前で作成され、Microsoft Excel やテキスト ファイルのデータ ソースを使用するワークブック、レガシー接続を使用するワークブック、および Microsoft Access データ ソースを使用するワークブックでは使用できません。この関数を使用するには、データを抽出ファイルに抽出します。データの抽出を参照してください。

  • COUNT関数が値の内容関係なくカウントするものでしたが、こちらは同じ値はいくつ存在しても「1」とカウントする関数です。

使ってみた

顧客名をカウントします。

COUNTD([顧客名])

そのメーカーの製品を注文した人が何人いるか表示します。
ダブりはカウントしないので、純粋に「注文した人」の数をカウントすることができます。

どういう時に使う?

  • 上記のように、ダブってカウントしたくない際に使用します。
    • COUNT関数より、使う頻度は多いと思います。

参考文献

 

COVAR(expression 1, expression2)

概要

2 つの式の標本共分散を返します。 共分散は 2 つの変数の変化をまとめて定量化します。ある変数の値が大きい場合は、平均して、他の変数の大きい値に対応している傾向があるため、プラスの共分散は変数が同じ方向に移動する傾向があることを示します。標本共分散では、母共分散によって (COVARP 関数で) 使用される n ではなく、non-null データ ポイントの数である n-1 を使用して共分散計算を標準化します。標本共分散は、データが大きな人口に対する共分散の見積もりに使用されるランダムなサンプルの場合に適しています。 expression1 と expression2 が同じ場合、たとえば、COVAR([profit], [profit]) の場合、COVAR は、値がどの程度の範囲で分散しているかを示す値を返します。

 

COVARP(expression 1, expression2)

2 つの式の母共分散を返します。 共分散は 2 つの変数の変化をまとめて定量化します。ある変数の値が大きい場合は、平均して、他の変数の大きい値に対応している傾向があるため、プラスの共分散は変数が同じ方向に移動する傾向があることを示します。母共分散は標本共分散に (n-1)/n を乗算したものです。ここで、n は non-null データ ポイントの合計です。母共分散は、対象のすべてのアイテムに対して利用可能なデータがある場合に最適です。反対に、アイテムのランダムなサブセットのみがある場合には、標本共分散 (COVAR 関数を使用) が適しています。

  • 共分散を求める関数です。
    • COVAR関数:標本共分散、COVARP関数:母共分散、を求める関数です。
  • 共分散とは、簡単に言うと、2つの値の相関関係を表したものです。

使ってみた(COVAR関数)

売上と利益の標本共分散を求めます。

COVAR([売上], [利益])

※COVARP関数も使用方法は同じです。

どういう時に使う?

参考文献

 

MEDIAN(expression)

概要

式のすべてのレコードの中から中央値を返します。中央値は数値フィールドでのみ使用できます。NULL 値は無視されます。この関数は、Tableau Desktop 8.2 より前のバージョンで作成されたワークブック、 または従来の接続を使用するワークブックでは使用できません。また、次のデータ ソースのいずれかを使用している接続では利用できません。

使ってみた

「利益」を指定してみます。

MEDIAN([利益])

メーカー別の利益における中央値を算出してみました。

どういう時に使う?

  • 「平均」は外れ値の影響を大きく受ける値ですので、より「中間」に近い値を求めたい時はMEDIAN関数で中央値を求めておくと良いと思います。

参考文献

おわりに

引き続き集計関数について見てきました。
メジャーな種類の関数なので、バージョンが上がると今後も増えていくと思われます。

次回はtamaによるTableauの関数を全て試してみる〜集計関数編その3です。お楽しみに。