Lookerベスト・プラクティス:データに適したチャートやグラフの選び方 #looker

2019.12.31

当ブログではLookerのいちシリーズとして『Lookerによる可視化(Visualizations)実践』というシリーズを展開し、Lookerで利用可能な可視化タイプの紹介を適宜行っています。

そして、データを扱い、可視化を作成していく中で『このデータをこういう風に見せたいんだけれども、どのチャートを使えば良いんだろう?』というのはデータ可視化のフェーズでは良くあることです。Lookerでは以下のエントリで『条件に適したチャートの選び方』についてまとめています。当エントリではその内容についてざっと見ていきたいと思います。

目次

 

はじめに

データに最適なチャートやグラフを選択する事は可視化においてとても重要です。定める『目標』によって対象となる『結果』も変わってきますし、同じ『質問/目標/結果』のフレームワークを異なる対象に対して投げ掛けることも出来ます。

まず注目すべきポイントは、データの表示に関するフレームワークの『目標』の部分です。可視化(Visualization)の殆どは、以下4つの主な目的のいずれかを満たすものとしてみなされます。

  • 1.値が互いにどのように比較されているかを示す
  • 2.データの分布を示す
  • 3.データの構成を示す
  • 4.値の相互関係を示す

データに対応する適切な可視化を見つける際の課題は、データに対してどのような質問を投げ掛けて『目標』を見つけていくか、というところにあります。その『目標』を特定出来れば、あとは以下のフローを参考にして適切なチャートを選んでいくだけです。

チャートのグラフと種類:何を見せようとしていますか?

そしてその『フロー』がこちら。データをどのように見て把握したいか、その条件に応じて使用すべきチャートが配置されているとても分かり易い内容になっています。

以降、このフローに関しての詳細について見ていきます。

 

データに対する最適なチャートを選択するフロー

 

1.値が互いにどのように比較されているかを表示したい

データを比較したい場合、データの中の異なる値、属性をどのように比較したいのかを深掘りしていきます。

テーブル系のチャートは、正確な値を互いに比較するのに適しており、縦棒グラフと横棒グラフは様々なカテゴリの値を比較し、折れ線グラフは時間の経過に伴う傾向の表示に適しています。

チャートタイプ 理想的な使用方法
縦棒グラフ
(Column Chart)
比較するカテゴリや名称が少ない場合(表示や読みやすさを考慮)
グループ化された
縦棒グラフ
(Grouped Column)
カテゴリ毎の複数のデータを直接比較したい場合 (※このチャートの場合、カテゴリ間での単一のシリーズを比較することは困難になるので注意)
横棒グラフ
(Bar Chart)
多数のカテゴリ間比較を行いたい場合。カテゴリ名は縦に並べる事で読み易さが向上する。また、負の数を表示したい場合にも適している
折れ線グラフ
(Line Chart)
経時的な連続データの傾向を表示したい場合。
オーバーレイライン
(Overlay Line)
連続データのトレンドを複数のディメンションで経時的に表示したい場合。
テーブル
(Table)
正確に値を表示させたい場合。(※傾向を見つけたりデータセットを比較するのには適していない)

 

2.データの分布・分散を表示したい

データの分布を見たい場合、個々のデータがより広範なデータセット内でどのように分布しているかを見ていきます。

箱ひげ図は統計の要約に基づいた分布を表すのに適しています。列のヒストグラムは発生頻度を見つけるのに適しています。散布図は、大きなデータセットの分布を見るのに有用です。

チャートタイプ 理想的な使用方法
箱ひげ図
(Box Plot)
5つの数字の統計サマリーに基づき、データがどのように分布するかを表示させたい場合。小さな「ボックス」は殆どのデータが一定の範囲内にあることを示し、大きなボックスは、データがより広く分布していることを示す。
列のヒストグラム
(Column Histogram)
変数の分布を表示させたい場合。定量データをプロットし、バケット化された値の範囲内で発生する「何か」の頻度を特定。ヒストグラムはカテゴリに関する情報を関連付けるのではなく、両方の軸に定量的なデータを持っているため、縦棒具グラフとは異なる。
散布図
(Scatter Plot)
特に大規模なデータセットに適した2つの変数を使用したデータの分散を見たい場合。外れ値である特定のデータポイントを素早く識別出来る。

 

3.データの構図・構成を表示したい

データの構図・構成を見たい場合、データセットにどのような一般的な機能が含まれているかを見ていきます。

ドーナツチャート・円グラフは、単純な比率が役立つ場合にその構成を表示するのに適しています。エリアチャートは、データの構成を時系列にトレンドのコンテキスト内に配置します。積み上げ棒グラフ・パーセントグラフ・及び縦棒グラフはデータ構成の概要を表示するのに便利です。

チャートタイプ 理想的な使用方法
ドーナツチャート
(Donut Chart)
単純な比率が意味のある情報を提供していて、複数カテゴリのピボットが必要な場合。パーツと全体の関係を把握したい場合。
円グラフ
(Pie Chart)
単純な比率が意味のある情報を提供していて、複数カテゴリのピボットが必要な場合。パーツと全体の関係を把握したい場合。
エリアチャート
(Area Chart)
「部分」と「全体」の関係のコンテキストで、長期にわたる連続データの傾向を表示させたい場合。色が重なり傾向が簡単に見られない可能性が発生するため、時間の経過に伴う個々のデータセットの傾向を区別する場合は適していない。
積み上げ横棒グラフ
(Stacked Bar)
多くのカテゴリ間でのデータ構成の概要、または時系列を表示したい場合。
積み上げパーセント
(Stacked Percent)
純粋にデータの構成を見たい(正確な値までは不要)場合。様々なカテゴリ間の比例的な寄与を比較する場合にも有用。
積み上げ縦棒グラフ
(Stacked Column)
データ構成の概要を表示したい場合。列名のセグメントが多い場合は適していない。同じセグメントを棒グラフ内で比較する場合は代わりに「縦棒グラフ」を使う。

 

4.値の相互関係を表示したい場合

値の相互関係を見たい場合、その値・属性が互いにどのように関連しているかを調べます。

バブルマップやヒートマップを使うことで、データポイント間の関係を素早く特定出来ます。

チャートタイプ 理想的な使用方法
バブルチャート
(Bubble Chart)
3つの変数を持つデータポイント間の関係を表示したい場合。
ヒートマップ
(Heat Map)
正確な値の、より大きなデータセット全体における情報を素早く関連付けて表示したい場合。

 

まとめ

というわけで、Lookerに於ける『データに適したチャートの選び方』に関する内容のご紹介でした。Lookerではこの他にも、『The Art of Telling Stories with Data』というホワイトペーパーでチャートの選び方に関する解説がなされています。エントリとタイミングを改めて、別途この内容については言及・紹介してみたいと思います。