[レポート]Athenaでモダンなデータ分析アーキテクチャを作ろう #ANT327 #reinvent
データアナリティクス事業本部の鈴木です。
ANT327の『Modernize your analytics architecture with Amazon Athena』を聴講したのでレポートです。
セッションについて
登壇者
- Daniel Chen, Senior Product Manager, AWS
- Saurabh Bhutyani, Principal Analytics Solutions Architect, AMAZON WEB SERVICES
Session level
300 - Advanced
Session type
Chalk Talk
セッション概要
モダンなデータ分析アーキテクチャをどのように構成するか学ぶChalk Talkです。Amazon Athenaの概要から解説した後、機械学習・データ可視化・データメッシュの観点で各々のモダンなアーキテクチャについて紹介がありました。
このセッションはChalk Talkだったので、前半はスライドを中心に発表があり、後半はそれを受けての会場からの質疑応答でした。
特にAthenaに関するこのセッションは私の所属しているビッグデータチームではみんな興味津々のセッションだったので、チームメンバーの@kasahara-hiroshiさんと一緒に参加してみました。
セッションは前述のように大きく分けて、機械学習・データ可視化・データメッシュの3つの観点で説明されていたので、私の記事では機械学習・データ可視化の部分を中心にご紹介します。
レポート
導入
このセッションで期待されることは、「Athenaとデータソースコネクタについて理解すること」「モダンなデータ分析アーキテクチャについて学ぶこと」「Athenaでどのように実装するか応用を考えること」の3つです。
データ分析関連で、お客様が抱えている課題の例です。実際、日頃の開発の中で、ここで挙げられているような課題に直面することは多いです。例えば、データの移動や加工などの処理にマシンパワーが必要な場合も多く、つくりによっては費用面で課題が出てしまうこともあります。また、データ分析基盤はその性質上、組織内を横断する形で作られることが多く、さまざまなユーザーが共通して使えるように上手く仕組みの共通化や標準化をしてやる必要があります。
そこが上手くできていれば良いのですが、以下に紹介されている期待を上手く実現できる仕組みづくりはとても難しく、データ分析環境の構築・運用に関わる方はみなさん日々試行錯誤されていることと思います。
そこで我々の開発を強力にサポートしてくれるのがAmazon Athenaです。
Athenaについては4つの特徴が紹介されています。
- 始めやすいこと
- インタラクティブに分析できること
- オープンソースを元にしていること
- 価格が安いこと
データソースコネクタについて
特にデータレイクを構築する際、さまざまなサービス間のデータ連携が必要になりますが、それを強力にサポートする機能としてフェデレーテッドクエリが紹介されています。
フェデレーテッドクエリは非常に多くのデータソースをサポートしています。最近だと、個人的にはGoogle BigQueryをサポートしたのが印象的でした。この機能を使うことで、S3だけではなく、さまざまなデータに対して検索をかけることができます。
このように検索をかけて嬉しいユースケースとしては、以下の5つが紹介されています。
機械学習での構成例
機械学習での構成例としては、以下のOperationalize ML models with Athenaの構成が紹介されていました。Athenaを通して学習・推論用のデータを作成するようにすることで、例えば機械学習を使ってデータを活用したいアナリスト用にビューを作成し権限を付与することで権限制御を行うことも可能です。
データ可視化での構成例
データ可視化での構成例としては、以下の構成が紹介されていました。S3への検索や、データソースコネクタを使ったフェデレーテッドクエリによる検索を使ってデータを集約・加工し、データ可視化のためのシステムに渡すことでデータの可視化を実現します。
データメッシュの例
こちらは@kasahara-hiroshiさんの記事をご参照ください。
おわりに
ANT327の『Modernize your analytics architecture with Amazon Athena』のレポートでした。特に複数のデータソースに分かれてデータが存在している場合に、フェデレーテッドクエリを利用してAthenaで集約・加工することにより、機械学習・データ可視化でデータが使いやすくなる構成例を紹介しました。
フェデレーテッドクエリについては私も過去の勉強会などで紹介しており、この機能を利用してコスト効率がよくマネージドなAthenaで上手くデータを集約・加工し、実際にデータを利用するシステムに渡してあげられるかどうかが重要なポイントのようでした。