[Tableau Desktop] 基礎集計してみた

tableau-icon-for-blog

自宅警備員のおたいがです。こんにちは。 ( 挨拶 )

今回、データ集計の作業を実施したときに行った作業をまとめてみました。

基礎集計とは

端的に云うと具体的にデータを分析する前に実施する行事です。

  • 全体の傾向をみるため
  • 異常値の発見やデータの分布の確認、欠損値の有無、変数の作成など
  • データの概要を思い浮かべる

などといった目的のために行う必要があるそうです。料理における食材の下処理みたいなものでしょうか。

Tableau Desktop による抽出ファイルの作成

今回、集計対象のデータが Redshift 上にありました。常時起動しているとも限りませんし、毎回接続してデータを見て…といった手順を極力省きたいので、ひとまず片っ端から無心になってテーブル単位でデータ抽出を行いました。

地味な単純作業ではありますが、意外と時間のかかる作業であることに気づいたため、できるだけ並列的に処理を行うべく、以下のような手段で抽出を行いました。

  1. 抽出するテーブルの数だけ Tableau Desktop を立ち上げる ( `新規[Ctrl(Cmd)+N]` 連打で )
  2. Redshift のパスをクリップボードに貼り付けとくと便利
  3. それぞれの Tableau Desktop で Redshift に接続
  4. 抽出対象の任意のテーブルをシートのキャンバスにドラッグ
  5. `シート` に移動すると .tde 保存ダイアログが表示されるので、任意の名前 ( テーブル名推奨 ) で保存すると抽出が行われる
  6. [1]~[5] の作業を並行して行う

各フィールド種別の確認

Tableau Desktop はデータソースに接続すると、不連続のカテゴリー別情報 ( 値が文字列やブール値のフィールド ) は [ディメンション] に、定量的な数値情報 ( 値が数値のフィールド ) は [メジャー] に自動的に割り当てます。

ディメンションとメジャー

データによっては、数値型の不連続のカテゴリー別情報が [メジャー] に紛れ込む場合もあるので、仕様書と照らし合わせながら適宜 [ディメンション] に変換します。

メジャーのディメンションへの変換

今回、各ディメンション項目単位にシートを作成して、[レコード数] のメジャーにて棒グラフを作成しました。

集計する意味のあるデータかどうかを確認する

作成したグラフを見ながら、どのように集計するか考察します。

『サンプル - スーパーストア』のサンプル

Tableau の『サンプル - スーパーストア』を使用して、同様の処理を行ったものをアップロードしてみました。

サンプルのデータなので、キレイにまとまっている感があるため、面白みに欠けるものがありますが、雰囲気が伝われば…と思います。

あとは…

データ分析の凄い人に、作成したワークブックと抽出ファイルを渡して、美味しく料理していただきました。

AWS Cloud Roadshow 2017 福岡