Exploratory でテーブルデータ(データフレーム)の結合を行う
データアナリティクス事業本部 サービスソリューション部 サービス開発チームのしんやです。
当エントリでは、Exploratoryで異なるテーブルを任意の条件で結合し、後の可視化で利用する手順について紹介したいと思います。
可視化実践
まずは結合を行うデータを用意します。ここでは毎度お馴染み(?) DevelopersIOの投稿データに纏わるテーブルを2つ、用意しました。いずれもAmazon Redshiftに格納済みのデータとなります。いずれのテーブルも、結合のキーとしてauthor_id
(著者ID)を持っています。
cmdevio.wp_t_blogposts
(投稿データ)cmdevio.m_authors
(著者マスタ)
左辺指定するテーブルの「テーブル」タブから、結合したいキー項目のメニューより「結合(列を追加する/Join)」を選択。
結合条件指定画面が表示されますので、結合させたい条件を指定。
ちなみにExploratoryでは以下のような条件指定が可能となっています。
「テーブル」タブにて、2つの異なるデータフレームが同じ行のデータとして表示されていることが確認出来ています。
「チャート」タブで可視化を作成してみます。絞り込み条件で、結合したテーブルの条件を指定することが出来ています。
データが準備出来たので、あとは意図した内容で設定を行い、可視化を完成させました。設定に関しては以下のような形で行っています。
- タイプ:ピボットテーブル
- 行:以下の順番で列項目を指定/階層構造を表現
- 部署名
- チーム名
- ニックネーム(社員名に紐付く著者名)
- 値:行の数
- 列:投稿日を粒度「月」で(年でフィルタリングしているのでここで表示されているのは該当年の月数データとなる)
- 色で分割:全体(上から下、左から右)
- 合計は含まない
- 設定メニューでカラーリングを指定
- 合計:行と列を合計(SUM)で表示
- その他
- フィルタ指定
- 事業本部:データアナリティクス事業本部のみ
- 投稿日:2021年(from:2021-01-01 to:2021-12-31)
- フィルタ指定
ちなみに内容としては「弊社データアナリティクス事業本部(私が所属している事業本部)におけるチーム毎の月別投稿本数」を可視化したものとなっています。
まとめ
という訳で、Exploratoryで任意のテーブル(データフレーム)を結合した可視化作成の紹介でした。
私自身、ここまではLookerやTableauを使って可視化を作成することが多かったのですが、「LookerやTableauで作っていた"あれ"をExploratoryで実現(再現)するにはどうすればいいんだろう?」と最近は試行錯誤しています。今後も「Exploratoryでこういうのを作るには...?」という切り口で色々試していければと思います。