Tableau Publicで公開されている『サンプルデータセット』(Sample Data Set)のご紹介
当エントリでTableauネタを扱う際、私個人的には良く『Superstore』のデータを使っています。このデータはTableau社で行うデモ等でも利用頻度の高い、使い勝手の良い『サンプルデータ』だったりします。先日Tableauで作ったワークブックを一般公開出来るサイト『Tableau Public』を眺めていた所、以前は然程データバリエーションの無かった『Data Sets Sample』ページが非常に充実した内容にリニューアルされていたので、実際どんな感じのデータがあるのかざっと眺めてみました。当エントリはその内容紹介となります。
目次
データ入手元
データの一覧が紹介されているのはTableau Public配下、以下のURLとなります。
URLにアクセスし、[Sample Data Sets]のタブをクリックした先が当エントリで紹介するデータの入手先となります。
Public Data Set一覧
そして以下がその紹介内容となります。実データについてはTableau Public内のサイトに直接アクセスして入手して下さい。
Government(政府)
2016 Presidential Candidate Spending
2016年大統領選挙の支出に関するデータ。 (CSV/16万件/23MB)
UK Big Lottery Fund since 2004
英国ビック宝くじの基金に関するデータ。 (XLSX/複数シートあり/48.5MB)
113th US Congress Voting Record
米国議会の投票記録。 (XLSX/複数シートあり/517kb)
Military Equipment Transfer to Local Police via the 1033 Program
地元警察に対する軍用機器の転送要求に関するデータ。 (XLSX/106000件/4.2MB)
Education(教育)
UK University Research Excellence Framework Ratings 2014
2014年の"優秀な"英国の大学リスト。"REF"は英国の高等教育機関の研究の質を評価するための新しいシステムです。 (約1.9MB/約38,000件)
edX.org Academic Year 2012-2013
エデックス(edX)に関するデータ。詳細はエデックス - Wikipediaを参照。 (CSV/64万件/94.1MB)
American University Data
The Integrated Postsecondary Education Data System(IPEDS)によるアメリカ合衆国の教育に関する統計データ。 (XLSX/複数シートあり/1.3MB)
Lifestyle(ライフスタイル)
Titanic Passenger List
[タイタニック号の乗客リスト]判明している乗客のリスト。どこに向かっていたか、どのキャビンに滞在していたか、また生死についても情報がまとめられています。 (CSV/約1300件/118KB)
Top Baby Names in the US
[米国に於ける赤ちゃんの名前]米国各州に於ける、その年の男児・女児で最も多く命名された名前に関する情報。 (CSV/約10000件/231KB)
Cat vs Dog Popularity in the US
"猫と犬、どちらがアメリカでポピュラーか"をまとめたデータ (XLSX/約50件/13KB)
Technology(テクノロジー)
Startup Venture Funding
[スタートアップベンチャー基金]スタートアップ企業に関する情報。出典はCrunchBase(2007年にローンチしたWikipediaライクなスタートアップのデータベース)。 (XLSX/50MB)
Mobile OS Usage
[モバイルOSの利用状況]モバイルOS毎の市場に於ける利用状況データ。StatCounterによる2008-2014年の統計。 (CSV/約1900件/29KB)
Health(健康)
Tuberculosis Burden by Country
[国別の結核に関するデータ]WHO(世界保険機関)による、国別の結核死亡率、有病率に関するデータ。 (CSV/5100行/1MB)
US County Health Rankings
[米国の群別健康ランキング]様々な健康要因について、郡別でランキング付けしたデータ。 (CSV/303000件/26,7MB)
Global Burden of disease
[世界の疾病に関するデータ]世界の疾病、傷害、及び危険因子のデータを見積もったデータ。21の地域で1990年と2010に関して収集。 (CSV/59000件/3.1MB)
Sports(スポーツ)
Global Sport Finances
最も稼いでいるプロスポーツチーム及びアスリートに関する情報。ESPN調べ。 (CSV/265件/77KB)
Summer Olympics Medalist Dataset
1896-2012年までの夏季五輪メダリストに関するデータ。 (XLSX/複数シートあり/1.6MB)
NFL stats, 1999-2013
1999-2013年のNFL統計データ。攻撃に関する情報と個人情報を含む。 (XLSX,複数シートあり/8.6MB)
Entertainment(エンターテインメント)
Eurovision 1998 to 2010
ユーロビジョン・ソング・コンテスト(欧州放送連合(EBU)加盟放送局によって開催される、毎年恒例の音楽コンテスト)に関するデータ。 (XLSX/650件/442kB)
Hollywood's Most Profitable Stories
ハリウッドで2007-2012年に公開された映画のタイトル、ジャンル、スタジオ、収益性、レーティングに関する評価データ。 (CSV/70件/5kb)
Pokemon Index
ポケモン各種モンスターに関するステータスデータをまとめたもの。 (XLSX/1200件/282kb)
Science(科学)
Significant Volcanic Eruptions
大きな火山噴火に関するデータ。紀元前4360年から現在までの600以上の火山の噴火に関する情報がまとめられています。 (XLSX/660件/72kb)
Global Active Archive of Large Flood Events
1985年以降に発生した大洪水に関するアーカイブデータ。 (XLSX/4200件/3.1MB)
Magnitude 6+ Earthquakes
1900-2013年までに記録されたマグニチュード6以上の地震に関するデータ。 (XLSX/8300件/1.2MB)
Business(ビジネス)
The 2014 Inc. 5000
米国の急成長企業5000社の年次リスト。 (CSV/5000件/1.1MB)
Employment Changes in Great Britain by Industry
英国の業界毎の雇用変化に関する情報。 (XLSX/複数シートあり/120KB)
Millennial vs Baby Boomer Employment
米国の"ミレニアル世代"(1980年代から2000年代初頭(2000年前後)に生まれた世代)とベビーブーム世代の雇用に関する情報。 (XLSX/複数シートあり/4.1MB)
まとめ
以上、Tableau Publicの『Sample Data Sets』に関するご紹介でした。これだけバリエーションに富んだデータがあると、サンプル・デモの作成も色々アイデアが広がりそうですね。また、日本語・日本国内のデータについてもこのような形でサンプルデータをまとめたようなものがあると、更に便利かつ嬉しい感じになるなぁと思いました。こちらからは以上です。