【書評】Tableauを使って機械学習の効率を上げよう「Tableauで始めるデータサイエンス」
先日、ご縁があって「Tableauで始めるデータサイエンス」を株式会社秀和システム様からご献本いただきましたので紹介エントリーを書こうと思います。 (ご献本いただきまして、誠にありがとうございます)
実際に読んでみて、「Tableau使うと可視化が楽にいい感じにできるし、機械学習の工程では可視化は重要だしで相性がいいんだなぁ」と何回も思わされました。
内容としては「Tableau、Pythonの基本的な使い方」や「機械学習をするにあたっての考え方や進め方」、「実際のデータを使った実践例」が懇切丁寧に解説されており、「Tableau、Python使ったことない...。けど機械学習に興味ある」、「機械学習に興味がある」、「機械学習は既にやっているけど、可視化部分を効率化&高品質化する方法を知りたい」といった方にオススメです。
ページ数が多いのですが、それは「画像や図をふんだんに使って直感的に解説するため」であって、当初想像したよりもサクサク読み進めることができました。
以下、各章の概要について簡単にご紹介していきます。
はじめに
筆者はこの本を執筆した理由として下記の通り言及しています。
データサイエンスのプロセスの中でTableauが持っている便利さと可視化の重要性を、再認識するようになりました。
私も今まで機械学習をする時はPythonのみで全てコーディングしていたのですが、この本を読み終わった後は同じ感想を抱きました。当然、Pythonでも可視化することは可能ですが、Tableauを活用することでより「楽に、早く」可視化をすることができます。
EDAや評価をするにあたって可視化をしたいと思うことはよくあることかと思いますが、その際に「直感的にGUIで操作できるTableauで可視化する」というのは作業効率も格段に高まりそうですし、何より楽しそうです。
筆者の下記の言及の通り、本書籍では「TableauとPythonをうまく使い分けて効率的にプロセスを進める実践例」が解説されています。
TableauとPythonをうまく使い分け、補完し合うことで、データサイエンスのプロセスが効率的にかつ楽しく学んでいけると考え、これを実践する本を出版したいと思ったのです。
第1章 Tableau「で」始めるデータサイエンスとは?
「データサイエンスとは何か」、「またデータサイエンスを回すためのサイクル」や「Tableauプロダクトの紹介」がなされる章です。
「データサイエンスとは何か」、「またデータサイエンスを回すためのサイクル」については、機械学習をこれから始めようという方のみならず、経験者の方も再確認の意味も込めて一読する価値があるかと思います。
また、Tableauには複数のプロダクトがあるのですが、それぞれのプロダクトの特性やライセンス体系等についてもわかりやすくまとめられています。詳細事項や最新情報については公式HP等から確認する必要がありますが、シンプルに整理されており概要を把握するのに最適です。
第2章 基礎体力編
「Tableau Desktop」での可視化、「Tableau Prep Builder」を使った前処理、機械学習&Pythonの基本について学びます。
TableauとPythonを使った機械学習フローの中で必要とされる要素技術について広く基礎を学ぶことができ、かつ図表や画像が多く直感的に理解できるようにシンプル丁寧な解説がされています。 (一通り頭に入っている方についても、改めて全体のフローを整理する機会になります)
ちなみに、Tableauについてのイメージが無い方のために、下記にTableauの画像を少し添付しておきます。 画像は公式HPから取得しました。
・Tableau Prep Builder
本来ならSQLやPandas等で色々書かないといけない前処理も、このようにGUIベースで処理内容を把握できます。
参照:データの結合、形式変換、クリーニングが Tableau Prep で簡単に
・Tableau Desktop
下記のような可視化がGUIベースでできます。
参照:考えるのと同じスピードで答えを見つけられるTableau Desktop
下記は実際に本書籍の中で「EDAの可視化をTableauDesktopで実施」している図表の一部です。
第3章 実践編:実データでデータサイエンスのサイクルを回してみる
「2.基礎体力編」で学んだことをベースに、実際にTableauとPythonを使って機械学習のワークフローを実践する章です。データの確認からモデル評価までのフローを実践形式で取り組んでおり、この書籍のメインどころです。
モデルの学習はPythonで実行するのですが、EDAやモデル評価、推論結果の利用フェーズにおいてTableauで可視化することで、データの理解や活用をサポートします。
この章では「機械学習のためにどのようにデータを確認する必要があるのか」等の基本的な機械学習の確認ポイントも解説されているため、しっかり理解しながら読み進めていきたい章です。
下記は、本書籍で紹介されている「モデルの評価」をTableauで可視化して実施している参考例ですが、このようなVizを作れると色々楽ができそうで便利ですね。
第4章 展望編
この章では、今後更にデータサイエンティストとしてステップアップするための基本的な知識や考え方について紹介されています。この本を通して機械学習に触れた後に、「自分はどういう人材になりたいのか」といったことを整理することができます。
また、本書籍で紹介されたものとは異なりますが、Tableauの公式HPでもデータサイエンティストが持つべきスキルセットについて言及されています。 (一部を抜き出しています。詳細な説明は参照先をご参照ください)
- 非技術的なスキル
- 1.批判的思考
- 2.効果的なコミュニケーション
- 3.積極的な問題解決
- 4.知的好奇心
- 5.ビジネス感覚
- 技術スキル
- 6.効果的な分析のためにデータ準備を行う能力
- 7.セルフサービス分析プラットフォームを活用する能力
- 8.効率的で維持しやすいコードを書く能力
- 9.数学と統計学を適切に応用する能力
- 10.機械学習と人工知能 (AI) を活用する能力
参照:全データサイエンティストが持つべき 10 のスキルセット
上記を見てもわかる通り、データサイエンスに求められる要素はとても広く1人で全ての要素をカバーすることは殆ど不可能なため、「自分の目指す方向性をどこに定めるのか」といった点の考察は重要です。私も、この章を読んで「どのように機械学習に取り組んでいくか」といった方向性を再考する良い機会になりました。
まとめ
本書籍のご紹介は以上になります。
いざ、「Pythonで機械学習してTableauで可視化するぞ」と思った際に、要素技術を検索して実現することができれば良いのですが、一気通貫のフローをここまで丁寧に解説された書籍があるとやっぱり良いなぁ、と感じました。
以下、個人的にこの書籍で「良かったと思う点」、「書籍情報」、「Amazonへのリンク」、をまとめて終わろうと思います。
- Amazonへのリンク