ちょっと話題の記事

[書評] AWSの薄い本Ⅲ データ分析基盤を作ってみよう〜設計編〜

2021.07.02

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

AWSの薄い本 IAMのマニアックな話』や各種AWS認定試験対策本を執筆されている佐々木拓郎氏がこの度、データ分析基盤に関する書籍を新たに出版されていました。個人的にも非常に気になる内容でしたので早速購入し読んでみましたので書評というか感想を簡単にではありますが述べてみたいと思います。

(※今回はダウンロード版を購入しました)

目次

 

書籍情報

書籍はBOOTHで購入が可能です。購入タイプは『物理版(+ダウンロード版)』、『ダウンロード版』のいずれかが選べます。

書籍自体のボリュームは全7章、54ページと非常にコンパクトにまとまっています。

佐々木氏が過去執筆された"薄い本"の第1弾『AWS の薄い本 IAM のマニアックな話』が、全10章123ページ、

第2弾『 アカウントセキュリティのベーシックセオリー』が全8章95ページなので文字通りの『薄い本』と言えるのではないでしょうか。

なお、今回の第3弾『データ分析基盤を作ってみよう〜設計編〜』については、以下のような立ち位置で執筆されたものになっています。AWSでデータ分析基盤を構築・利用するユーザーも、そうでないユーザーもポイントを押さえて読み進めていくことが出来ると思います。

・AWS の薄い本と銘打っていますが、 AWS 成分は薄めです。
・想定の読者のレベルとしては、業務システムを構築あるいは利用する側の人を想定しております。
 AWS の薄い本と書いておりますが、AWS に関しての知識は不要です。
 AWS に関わらず汎用的な設計の考え方に通じるように執筆します。

 

ポイントとか感想とか

ここからは章毎のポイントや感想等について述べていきます。書籍のボリュームもそこまで多くないので、言及するボリュームも控えめにサラッと。

 

第1章 データ分析基盤が必要とされる理由

この章では、『ビッグデータやDX』が一般的にも浸透してきた現在、どのような形でデータ分析が重要な位置を占めてきて、データ分析環境が求められるようになってきたかについて、(データ分析/データ分析基盤を取り巻く)状況の変化と合わせて説明が為されています。

 

第2章 データ分析基盤の全体像と構成要素

この章では、書籍タイトルにも含まれている『データ分析基盤』という言葉そのものの定義と、データ分析基盤を構成する要素について本書籍における定義と解説が行われています。(曰く、データ分析基盤とは『データレイク』『ETL(Extract/Fransform/Load』『DWH』で構成されたシステム全体を指す、という定義となっています)

データ分析基盤における用語定義に続いて、書籍では『データ内の構造によるデータの分類方法』及び『データを構造化するあたっての"情報の切り捨て"に関する言及が為されています。データを分析出来るようにする、また可視化に耐えうるデータとして整えていく上で、この『構造化』は欠かせないものであり、最終的には何らかの過程でそういった加工・整備がされる流れとなります。何を除去して何を残すのか、データ分析でこういった形式のデータを扱う上では避けられないところであり、気になるポイントではあります。

そして章の最後では、『データ分析基盤』を構成する要素として挙げられていた3つの要素『データレイク』『ETL』『DWH』についての深堀り解説及びAWSにおける該当サービス(等)の説明が続いています。

 

第3章 データレイクとDWHのアーキテクチャ

この章では、まずはじめに「よくあるデータ分析基盤の課題」について幾つか例を挙げています。いずれもデータ分析環境の構築や運用に携わったことのある人であれば「あーね」となるようなトピックが並んでおり、改めて「データ分析基盤」を構築・運用することになるのであれば押さえておきたいポイントです。

第3章の残りの部分は「データレイク」における構造的なあり方、著者が考える「層の作り方」に関する解説が為されています。ポイントとしては「データレイクとDWHは分離する」「データレイクはRAWデータレイク、中間データレイク、構造化データレイクの3層を用途に応じて用意しておくことがオススメ」の2点。3層構造の部分についてはその理由も合わせて説明されており、「なるほど確かにそうしておくのが便利そうだ」という風に個人的にも納得出来る内容でした。

 

第4章 個人情報と加工方法と保持戦略について

個人的にはここからの後半戦、4〜6章が本書籍では「良いなぁ」と思っています。

まずは第4章。ここで扱うテーマは「個人情報」です。

「個人情報」の基本的な部分や著者整理による「個人情報の取り扱い戦略」に関して分かりやすい形で説明がされています。個人情報の取り扱いについては誰もが頭を悩ませ、対策に労力を注いでいる非常に重要なポイントです。

書籍では政府が展開している資料についても言及がなされています。書籍自体での言及は(書籍のボリューム感的にも)リンク展開のみとなっていますが、対策を考える上では十分参考になるものですのでこの書籍を切っ掛けに「データ分析基盤の構築・運用における個人情報の取り扱い」について議論を深め、対策を立てていくと良いでしょう。

 

第5章 データ加工について

この章では、まず始めにデータ分析基盤におけるデータ加工の手段を簡単な図解とともに解説しています。

  • ETL(Extract/Transform/Load):データを取り込む前にプログラムで加工する
  • ELT(Extract/Load/Transform):データを取り込んでからSQLで加工する
  • データプレパレーションツールの活用:GUIベースでデータの変換処理を行う

そして章の後半では、AWSの対応するサービス(挙がっていたのはRedshift、Athena、Glue DataBrewなど)でデータを扱う&加工する際のポイントについて、幾つかの要点にまとめた形で紹介されていました。

 

第6章 アクセス制御

データ分析基盤を利活用する上でとても重要なポイントであり、個人的にも非常に興味深いテーマを扱っていると思ったのがこの第6章「アクセス制御」の部分です。本書では「権限ベースのアクセス制御(例:IAM)」、「リソースベースのアクセス制御(例:S3バケット)」、「テーブルレベルでのアクセス制御」それぞれについてどのような仕組みなのか、またどういったポイントを押さえておくべきかという部分の解説がなされています。

 

まとめ

という訳で、書籍『AWSの薄い本Ⅲ データ分析基盤を作ってみよう〜設計編〜』の内容紹介(と簡単な感想)でした。

佐々木氏は書籍の第7章『まとめ』にて、以下の文言で章の内容を締めています。

本文の中では、自信満々に断定しているところも、実は読者の皆様にどうやっているのか
問いたい部分ばかりです。
ぜひ、本書をきっかけにデータ分析基盤の設計手法 を考えてください。
そして、ぜひブログや SNS で発信して頂いて、議論できるようになれば幸いです。

そしてまさにこの文言通り、社内でもこの書籍に興味を持っているメンバーが一定数居ましたので早速『議論』をすべく読書会を企画しました。トピックやテーマ的にも議論のネタになるようなものが散りばめられているように思いますので、この書籍を切っ掛けに皆さんも社内や有志メンバー間で読書会を催してみてはいかがでしょうか。

今回の『設計編』に続く形で『実装編』も予定されているそうなので、続編出版も楽しみに待ちたいと思います。

(※著者御本人のブログエントリはこちら:)