[Tableau Desktop] 基礎集計してみた
自宅警備員のおたいがです。こんにちは。 ( 挨拶 )
今回、データ集計の作業を実施したときに行った作業をまとめてみました。
基礎集計とは
端的に云うと具体的にデータを分析する前に実施する行事です。
- 全体の傾向をみるため
- 異常値の発見やデータの分布の確認、欠損値の有無、変数の作成など
- データの概要を思い浮かべる
などといった目的のために行う必要があるそうです。料理における食材の下処理みたいなものでしょうか。
Tableau Desktop による抽出ファイルの作成
今回、集計対象のデータが Redshift 上にありました。常時起動しているとも限りませんし、毎回接続してデータを見て…といった手順を極力省きたいので、ひとまず片っ端から無心になってテーブル単位でデータ抽出を行いました。
地味な単純作業ではありますが、意外と時間のかかる作業であることに気づいたため、できるだけ並列的に処理を行うべく、以下のような手段で抽出を行いました。
- 抽出するテーブルの数だけ Tableau Desktop を立ち上げる ( `新規[Ctrl(Cmd)+N]` 連打で )
- Redshift のパスをクリップボードに貼り付けとくと便利
- それぞれの Tableau Desktop で Redshift に接続
- 抽出対象の任意のテーブルをシートのキャンバスにドラッグ
- `シート` に移動すると .tde 保存ダイアログが表示されるので、任意の名前 ( テーブル名推奨 ) で保存すると抽出が行われる
- [1]~[5] の作業を並行して行う
各フィールド種別の確認
Tableau Desktop はデータソースに接続すると、不連続のカテゴリー別情報 ( 値が文字列やブール値のフィールド ) は [ディメンション] に、定量的な数値情報 ( 値が数値のフィールド ) は [メジャー] に自動的に割り当てます。
データによっては、数値型の不連続のカテゴリー別情報が [メジャー] に紛れ込む場合もあるので、仕様書と照らし合わせながら適宜 [ディメンション] に変換します。
今回、各ディメンション項目単位にシートを作成して、[レコード数] のメジャーにて棒グラフを作成しました。
集計する意味のあるデータかどうかを確認する
作成したグラフを見ながら、どのように集計するか考察します。
『サンプル - スーパーストア』のサンプル
Tableau の『サンプル - スーパーストア』を使用して、同様の処理を行ったものをアップロードしてみました。
サンプルのデータなので、キレイにまとまっている感があるため、面白みに欠けるものがありますが、雰囲気が伝われば…と思います。
あとは…
データ分析の凄い人に、作成したワークブックと抽出ファイルを渡して、美味しく料理していただきました。