【Q&A 内容公開】2020/6/25開催ウェビナー「今からはじめるAWSを活用したデータ分析統合基盤」

2020/6/25 クラスメソッド株式会社主催ウェビナー「今からはじめるAWSを活用したデータ分析統合基盤」にご参加頂いた方から頂戴した質問と、その回答を公開します。
2020.06.26

去る2020/6/25、ウェビナー「今からはじめるAWSを活用したデータ分析統合基盤」を開催しました。
多くの方にご参加頂きました、ありがとうございました!

ウェビナーに参加された方から戴いた質問と、その回答を公開します。

Q & A

Q. DWHを構築するにあたって、データ分析のアウトプット(どういうグラフを出したいか、どのようなデータがみたいか)を考えて、テーブル設計などを実施されているのでしょうか。

はい、見たいグラフやレポートのフォーマットが決まっている場合は、
・まず、それら表示に必要なデータを含むテーブルをデータマートとして設計
・次に、そのテーブルを作るために必要なデータはどこから取得してどのような加工を経る必要があるか設計
・最終的に、データの取得元となる情報システムのテーブルを指定
…と逆算して設計、開発を行っています。
見たい画面が決まっていない場合は、データマートまでは作成せずにDWHテーブル群まで作成しておき、分析者がBIツールを使って各自画面を作成する、という形態になることもあります。

Q. BIツールを使う場合に直接DWHのテーブルを指定する方法を考えていましたが、データマートを作るメリットなどあれば教えてください。

データマートを作ると、検索に必要なだけのデータが必要な形で置けるので、検索の性能が速くなるメリットがあります。
「データマートを作らないと検索が遅い」という状況が発生しない場合は、直接DWHのテーブル群をBIツールで組み合わせながら参照する形でもよいと思います。

Q. JMCとはAWSのサービスなのでしょうか?

JMCは、Job Management Consoleの略称で、データ取り込み及びデータの加工・集計ジョブの管理をサポートするWebサービス です。
基盤はAWSですが、JMCのプログラムは弊社で開発しました。対応DWHは現在Amazon Redshiftのみです。

【補足回答】JMCについては、下記ブログエントリに詳細が記載されています。ご参考になさってください。

業務の手間やコストを低減し、処理を効率化・自動化するデータ分析基盤『カスタマーストーリーアナリティクス』について

データ統合基盤CSAnalyticsを使ってS3のデータでRedshiftにテーブルを作成してデータを取り込んでみる

Q. 「開発3ヶ月、調整3ヶ月」「最初は1部門、最小限」は、開発規模的にどれくらいのイメージをもつとよいでしょうか。
※データ量、データマート数、等

おおよそのイメージですが…。テーブル数はソースとなるシステムからマスタやトランザクションを合計20~50テーブル分取り出して、ETL処理を経由してデータマート数をだいたい10程度、くらいの感じです。 開発工数はソースの数やETL処理の複雑さに依存し、データ量には依存しません。(データ量に掛かる処理時間は、クラウドのパワーで解決できます)

【補足回答】単純にCSA JMC環境を導入し、中の処理は後で作る、という話であればヒアリング含めて1ヶ月未満で提供可能です。
本格的にお客様で定義された処理をCSA JMC環境上で実装する場合は、その処理の内容に拠って工数が変わるため、開発や調整に上記の期間くらい経験上掛かっています。実行したい処理がSQLやPythonプログラムとして記述されている場合は、それらの登録・活用・共有はJMC上で手早く可能ですので、工数は短縮できるでしょう。

Q. AWS Glueで構築する場合、このあたりがどのような影響となるかを知りたいと思っておりました。
以下の処理をGlueで実装する場合、どのような工数へのインパクトと捉えるとよいでしょうか。
(先述の3ヶ月とくらべて、収まるイメージとか、数倍になるとか)
・もとのデータがマルチレイアウトのCSVで、正規化する
・複数のデータソースを名寄せする(アンマッチ対処等のクレンジング)
・多数のテーブルをJOINして生成するデータマート

(ライブ回答要約)同じ要件のデータ分析基盤構築にCSA JMC環境を導入する代わりにAWS Glueを導入した場合の工数比較、という質問と解釈しましたが、結論を先にお伝えすると、Glueを使う方が長くなるのではないかと思われます。しかし数倍という程ではないという理解です。
データ分析基盤構築にCSA JMC環境を導入するかAWS Glueを導入するかは、お客様の要件で判断しています。一例を挙げます。AWS GlueはETL処理のために生成するプログラムはGitなどで詳細かつ厳密に管理することが可能です。そのようなコード管理を求められている場合はAWS Glueを導入します。

おしらせ

CSアナリティクスとは

CSアナリティクス(カスタマーストーリーアナリティクス)は、社内に散在する売上データや販売履歴データのほか、Salesforceの顧客情報、Google Analyticsのアクセスログなどを単一の基盤上に統合するパッケージサービスです。 最短1ヶ月で導入可能、初期構築費用25万円からで、BIツールのTableauもバンドル提供しているため、本格的なデータ分析をすぐに始めることが可能です。

書籍『みんなのAWS〜AWSの基本を最新アーキテクチャでまるごと理解!』

技術評論社様から出版されています。

こちらの第4章がセッション2「データ分析基盤に活用できるAWSサービスのご紹介」に関連した内容ですので、データ分析基盤構築のご参考になさってください。

  • 第4章 AWSで作るデータの収集・可視化基盤
    • 4.1 AWSで作るデータ収集基盤
    • 4.2 データ分析の基本知識とAWSサービス
    • 4.3 データレイクを構築する
    • 4.4 データウェアハウスを構成し,グラフ表示する
    • 4.5 機械学習を導入する