[レポート] Get the big picture for analytics services on AWS #GEO017 #reinvent

2022.12.04

みなさん、こんにちは。

AWS事業本部コンサルティング部の芦沢(@ashi_ssan)です。

英語漬けの日常で疲れてきていたre:Invent2022 4日目、Geo Talkというセッション区分に日本語で行われるセッションがあったので、砂漠の中にあるオアシスを求めるかのように参加してきました。

概要

セッション概要

Session Title

Get the big picture for analytics services on AWS

Session Description

AWS provides the broadest selection of analytics services that fit virtually all your data analytics needs and helps organizations of all sizes and industries reinvent their businesses with data. From data movement, data storage, data lakes, big data analytics, log analytics, streaming analytics, business intelligence, and machine learning to anything in between, AWS offers purpose-built services that provide the best price performance, scalability, and lowest cost. In this talk, get the big picture for analytics services on AWS. Understanding the AWS service portfolio can help you and your builders improve data analysis in your organization. This talk is delivered in Japanese.

Session level

None

Session type

Geo Talk

登壇者

Okamoto Hiroshi

Manager, Solutions Architect

Amazon Web Services Japan G.K.

レポート

Analyticsの全体像を紹介するセッション

re:Invent2022で発表されたアップデートはスライドにないため、口頭で補足するとのこと


なぜデータ活用するのか?

今回のre:Inventではデータガバナンスやデータ加工に関するアップデートが多かったが、これはさまざまな企業でデータ活用が進んできた証拠。

データ活用の効果について、例えば...

  • 意思決定のための判断のソースとして使う
  • イベントドリブンな初期対応をしたり、直近の情報のダッシュボード化することで以前よりも迅速な対応が可能に

以前よりデータ活用を取り巻く状況が異なったことで、データの活用が難しくなっている

  • 指数関数的な データ量の増加: コンディションの増加、活用する企業の増加によるデータの発生量増加
  • 新しい データソース: 構造化された業務システムだけでなく画像などの非構造化データも出現
  • 多様な データフォーマット: データフォーマット増加に対し、JSONなどに変換してうまく扱う必要が出て来た
  • スキルの異なる さまざまな利用者: データ分析の素養のあるエンジニア以外にビジネスサイド、経営者もデータを利用するようになった
  • 多くのアプリケーション による活用: データの可視化ダッシュボード、機械学習のソース

データレイク - 分析 - データベース  - 機械学習 という一連の流れの「箱」

この箱の中身を全部やってくれる、すごい箱が欲しい

キーワードは「カタログ」と「ガバナンス

カタログ = どんなものがあるのか?を判断するメタデータの管理

ガバナンス = 膨大なデータを適切な権限で提供すること

  • データレイク: スケーラブルにデータを集約する箱
  • パフォーマンスとコストを重要視した設計: Keynoteで話題に上がったパフォーマンスとコストの綱引きの話
  • サーバーレス
  • 統合されたガバナンス
  • 機械学習サービスとの統合


無尽蔵に溜まっていくのでレイク(湖)

構造化データだけでなく画像などの非構造化データもある

コストとパフォーマンスに優れていて、ストレージはコンピューティングから切り離れている


LakeFormationはセキュアなデータ分析環境を展開することができるサービス

登場以前は、データ分析を始める際にS3をデータレイクをとして使っていくところから始めていたが、LakeForamtionによってカバーされた

re:Invent2022にて発表されたAmazon DataZoneの話

既存のデータレイクではテーブルを格納するにとどまっていた

DataZoneでは、データについての説明等のメタデータを含むデータカタログを構成できる


S3に格納したデータを適切なセキュリティで管理する

「この部署にはこのカラムを見せたくない、マスキングしたい」「あるチームにだけデータを見せる」を実現する行レベル、列レベルの権限管理


データ分析ソリューションはpurpose-build(ある特定の目的のために作成する)の領域

アドホッククエリ(その場で使い捨てのクエリ)は、Amazon Athena

ビッグデータ処理(大量のデータを分散処理して使う)の場合は、Amazon EMR

SIEMや全文検索のようなユースケースで、Amazon OpenSearch Serviceを利用する

Opensearch Serviceは、re:Invent2022アップデートでServerless版が利用可能になった

IoTサービスの分析のようなリアルタイム分析ではAmazon KinesisやAmazon MSK(Managed Service for Kafka)の出番


AWSのデータ分析サービスはサーバレスのものがたくさんある


RedshiftはData Warehouseのサービスで、大量データの並列処理が元々の使われ方

データとストレージの分離が進んだ結果、サーバーレス化が実現した

プロビジョンドではプロビジョニングしたストレージ料金と実行したクエリ料金を合わせた従量課金だったが、Serverlessでは利用したコンピューティングリソースに対する料金のみに


プロビジョンド型はノードをあげている間は課金される

サーバーレス型は使った分だけ課金、Redshiftを使い始める入り口に最適


Amazon GlueはETL(データのExtract(抽出)、Transform(変換)、Load(格納)の略)を行うサービス

re:Invent2日目のAdam Selipsky KeynoteでAWS CEOのAdamは、ETLをやりたくないもの、嫌なものとして紹介 → 「Zero ETL」の話

とはいえELTを使わなくてはいけない時はあり、その時はGlueを使ってほしい

Auroraとの接続や、外部サービス(Snowflake、Big Query)からのデータ抽出が可能

いろいろな角度からETLジョブを定義できる


Glue StudioではGUIでジョブの定義が可能

細かいチューニングの時に嬉しい


Glue Databrewは、ノーコードで使用できる技術者ではない方のためのデータ分析ツール

機械学習や予測を行うときに必要な前処理ができる


感想

99%が英語のセッションであるなか、日本語だったので聞きやすい!わかりやすい!が感想になってしまうのですがそれは一旦置いておいて。

今回のセッションでは、表題にbig pitureとあるようにAWSのデータ分析サービスについての大枠について解説いただきました。

私の専門がデータ分析ではないのでAWSのデータ分析サービスを業務で使ったことはないのですが、なぜデータ分析が必要なのか、やデータ分析はなぜ難しいのか、という基本的なところから各サービスの使い分けまで簡潔に説明されていてわかりやすかったです。

今後取得予定である AWS認定試験のDASを勉強する前の仕掛かりとしても聞いてよかったな、と思います。

以上、AWS事業本部コンサルティング部の芦沢(@ashi_ssan)です。