ExcelデータをTableauで分析し易くする為に整形・編集する

2014.04.03

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

Tableau DesktopではExcelをデータソースとして扱う事が出来るのでTableau自体のデモや簡単なデータ検証・分析を(データベース等に環境を容易せずに)行う事が可能ですが、分析の際に利用するデータは必ずしも分析に適したフォーマットになっていない可能性があります。そこで当エントリではTableauによる分析の初歩段階、Excelで作られたデータに対して接続を行う際に、そのExcelを『より分析に適した』形に成形・編集するポイントについて見て行きたいと思います。(※内容的にはExcelをベースにした形となりますが、一部内容はDBやDWHにデータを格納する際の参考にもなると思います)

目次

Tips

1).1行目はヘッダーとする事

ファイルの1行目には、フィールドヘッダー(または列名)を含める必要があります。なので、冒頭の紹介文やその他不要なテキストがある場合は除去しましょう。

多くのレポートではレポート名や部門・日付情報等の付加情報が記載されている事がありますが、これらはTableauで開く場合、不要なデータとなります。削除してしまいましょう。

excel-format-103

2).同じ種別のデータは行内で並べず、別のデータ行として切り出す

1行の中に同種のデータは1つのみ含めるようにします。以下例では学生及び学生の3教科の成績一覧をExcelテーブルとして表示しています。生徒データ1行に対してそれぞれ教科の列が設けられていますが、

excel-format-101

数学・英語・科学をそれぞれ単一の列:科目 に収まるように置き換えます。この表だと各学生で3行データを持つ事になりますが、それぞれの行で1つの科目に対する点数を含む形となります。

excel-format-102

3).ヘッダは単一行に留める(複数見出し行、中見出しのような形でヘッダ項目1つだけ、みたいな事はしない)

先頭行はフィールドヘッダーを含むだけではなく、あるヘッダー行"だけ"存在するというのもよろしくありません。 もし、そのカテゴリ要素のヘッダがある事で構成が壊れてしまうようであれば、そのカテゴリを含む新しい列を作成します。 以下の場合、カテゴリ情報としての"年組"は除去され、新しい列: "年組"が表に追加されてデータがそこに入る形となっています。

excel-format-104

excel-format-105

4).空白セルがある場合(=データ内容を略記している場合)、省略せずに値を埋める事

カテゴリとして新しい列を追加した際は、情報がデータ行毎に繰り返されるように空白セルを埋めておく事。冗長な形となるが、分析においては各レコードが全ての列に渡ってデータを有している事が重要なポイントとなります。

5).集計行や記述的な箇所は除去

生データレコードが含まれてない行、文の記述のみとなっている行は削除します。Tableauでは合計値を求める事も出来ますのでこういった行は不要となります。

6).空白行(何も入力が無い行)・重複ヘッダを削除

これらもTableu分析の際は不要です。除去しましょう。

7).ヘッダー部分が無い場合は追加・補完

追加した列がヘッダを持っていない場合はヘッダを追加して下さい。

3).では新しく"年組"の列を追加していますが、その際に列データのみだけでは無くヘッダーにも"年組"を補完していますが、このような形でヘッダーもデータ列に応じたものを一式用意する形とします。

"Tableau Excel Reshapeアドイン"を使ってExcelデータを成形・再構築

上記作業を行っても未だ尚、分析データとしてはまだ理想的な形となっていない場合があります。TableauのサイトでExcelアドインが提供されているので試しに導入してみます。

アドインのインストール

下記サイトの該当リンクからアーカイブファイルを入手・解凍。

excel-format-201

解凍後のexeファイルをクリックし、プラグインをインストールします。

excel-format-202

インストール完了後、Excelを開いてメニューから[Excelのオプション]を開きます。

excel-format-203

プラグイン一覧にTableauのものが含まれていますが、まだアクティブではありません。[設定]を押下。

excel-format-204

有効なアドインとしてチェックを選択し、[OK]押下。

excel-format-205

アクティブなアドインとして登録されました。[OK]押下で設定を完了します。

excel-format-206

[Tableau]タブが表示され、幾つかの機能が使えるようになりました。

excel-format-301

アドインを実行

では、ここからはそれぞれのアドイン機能を見て行きましょう。

クロス集計の形状を変更

Tipsの2)と同じ処理を、ボタン一発で実施する機能です。

tableau-addin-01

所定の位置が選択された状態でボタン押下。

tableau-addin-31

すると範囲の指定を促されるので進めます。すると...

tableau-addin-32

あっという間に変換が済んでしまいました。これは便利。

tableau-addin-33

ピボットテーブルを新しいシートにコピー

ピボットテーブルの内容を、書式等全て取り除いた状態で新しいシートにコピーします。

tableau-addin-02

実行前、

tableau-addin-11

実行後。別シートが作成され、内容も転記されています。

tableau-addin-12

データの隙間を埋める

こちらもTips 4)の内容をボタン一発で行う事が出来ます。

tableau-addin-03

所定のソート順で並んだデータが、変わり目の部分だけ入力がある状態のデータです。処理を行いたい列を指定して処理実行すると、こちらもあっという間に空欄が埋まりました!

tableau-addin-21tableau-addin-22

Tableauでこのファイルを開く

開いているExcelをデータソースとしてTableauから接続します。

tableau-addin-04

tableau-addin-51

tableau-addin-52

まとめ

以上、Excelデータを分析で扱う際のちょっとしたTips、及び便利アドインのご紹介でした。Tipsの中にはDBやDWHのデータとして格納する際にも当てはまる技もありますのでETL等で適宜適した形にデータを成形するための参考にもして行きたいところですね。