Tableau 10.3新機能:PDFファイル内の表を直接読み取る #tableau

tableau-icon-for-blog

はじめに

Tableau各種プロダクト(Tableau Desktop、Tableau Server等)は、現在バージョン10.3のベータプロジェクト実施中で、2017年4月28日時点では、最新のバージョン10.3 ベータ2が提供中です。下記サイトにその機能の一覧が紹介されていますが、ベータ版プロジェクトに参加することで各種機能を実際に試してみる事ができますので、リリース前ではありますが本シリーズで新機能を試し紹介します。

tableau103-new-features

当エントリでご紹介するTableau 10.3新機能は『PDFコネクタ』です。

PDFファイル内の表データを直接読み取れるようになりました!

Tableau 10.3では、PDFの表データを直接Tableauで読み込み、分析を開始することができます。 では、この機能を一般のPDFで使えるかどうか、試してみます。

検証環境

以下のMac上のWindows仮想環境で、Tableauの動作を確認しました。

  • macOS Sierra バージョン10.12.4
  • VMware Fusion バージョン8.5.6
  • Windows 10 Pro 64bit(Build 15063)
  • Tableau Desktop Professional Edition 10.3.0 64bit Beta2

PDFファイル準備

まずは、PDFファイルを準備します。

tableau103-new-features-connect-to-pdf-01

Tableauを意識せずに作ったPDFファイルが本当に読めるかどうか確認するために、Googleで"統計データ PDF"で検索し、一番上位に来た「一般社団法人 日本冷凍食品協会」のデータを使うことにします。

tableau103-new-features-connect-to-pdf-02

一般社団法人 日本冷凍食品協会のページの先頭に最新データがありますが、なぜかWordとExcelファイルなので、過去の履歴からPDFファイルで作られている平成25年のデータを使うことにします。

tableau103-new-features-connect-to-pdf-03

リンク先PDFファイルは、先頭の1ページ目に平成16(2004)年から平成25(2013)年までの生産に関する表が記載されています。今回はこの表を使用します。

表示されたPDFファイルをそのままpdf-data_10.pdfとしてローカルに保存しておきます。

PDFファイル読み込みとTableauビュー表示

Tableau Desktop 10.3ベータ2を起動します。

tableau103-new-features-connect-to-pdf-04

起動後の左側メニューから[接続]-[PDFファイル]を選択します。

tableau103-new-features-connect-to-pdf-05

ファイルダイアログから、先程保存したPDFファイルを選択し、開きます。

tableau103-new-features-connect-to-pdf-06

PDFファイルの読み取り範囲の指定を行う専用のダイアログが表示されます。
デフォルトのすべてから、単一ページに変更し、先程確認した1ページ目を指定します。

tableau103-new-features-connect-to-pdf-07

ファイルが開かれると、1ページ目に記載されている2つの表がそれぞれPage 1 Table 1Page 1 Table 2として参照できるようになります。1つめのテーブルをドラッグ&ドロップしてデータを表示させます。

tableau103-new-features-connect-to-pdf-08

データが表示されました。漢字は正しく表示されていますが、この時点では全て不連続な文字列として認識されています。

tableau103-new-features-connect-to-pdf-09

ここからTableau Desktopで扱いやすいように表にアレンジを加えていきます。計算フィールドで算出できるような値は、使わなくても良いでしょう。使用しないデータを非表示とします。各カラムの▼をクリックすると、カラム単位で非表示にすることができます。

tableau103-new-features-connect-to-pdf-10

データ型を表しているAbcを右クリックすると、適切なデータ型を設定することができます。

tableau103-new-features-connect-to-pdf-11

カラム名もF1、F2など読みづらかったので、カラム名をダブルクリックして、分かりやすい名前を与えます。

tableau103-new-features-connect-to-pdf-12

このような操作を各カラムに加えて、読みやすくシンプルなテーブルに変更しました。

  • F1:<非表示>
  • F2:タイトルを"年"、データ型を日付型に変更
  • F3:タイトルを"工場数"、データ型を数値(整数)に変更
  • F4:<非表示>
  • F3:タイトルを"企業数"、データ型を数値(整数)に変更
  • F6:<非表示>
  • F3:タイトルを"数量(㌧)"、データ型を数値(整数)に変更
  • F8:<非表示>
  • F3:タイトルを"金額(億円)"、データ型を数値(整数)に変更
  • F10:<非表示>

ここまででデータの準備が完了です。ワークシートに移動して、ビューを作成します。

tableau103-new-features-connect-to-pdf-13

ワークシートに移動した直後は、データ型定義はあるものの、連続/不連続の設定が全て不連続になっていて、かつデータが全てディメンションに寄っています。これを調整します。

tableau103-new-features-connect-to-pdf-14

数値を連続に変換します。

tableau103-new-features-connect-to-pdf-15

企業数や工場数等の定量データをメジャーに移動します。

tableau103-new-features-connect-to-pdf-16

これで、いつもの操作感覚でビューを作成できるようになりました。
各年次毎の冷凍食品生産数量(単位㌧)をシンプルにバーチャートで表示してみます。

tableau103-new-features-connect-to-pdf-17

せっかくTableauで読み込めるようになったので、Tableauらしいことを、ということで、2013年までのデータを元に、2014年の予測値を算出させてみました。

まとめ

以上、Tableau 10.3新機能『PDF接続』に関するベータ版内容のご紹介でした。

この新機能は、去年オースティンで開催されたTableau Conference 2016のキーノートセッションで初お目見えだったのですが、日本からの参加者の間では、日本語の問題など、実現には時間が掛かりそうだなぁ…という印象だったので、こんなに早く準備できていることに驚いています。こちらも他の新機能同様、分析の為の準備作業が減るという意味で大きな期待が持てるのではないでしょうか。正式リリースが楽しみです。それでは、また。

AWS Cloud Roadshow 2017 福岡