【レポート】AWS の分析マネージドサービスでデータ活用を加速しよう！#AWS-08 #AWSSummit

フルマネージドな分析サービスを利用することで、イノベーションと新しいアプリケーションの開発に時間を活用できます

AWS Summit Online Japan 2021

nagamasa

2021.05.13

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

本記事では2021/05/11(火)に行われた AWS Summit Online 2021 のオンラインセッション「AWS-08: AWS の分析マネージドサービスでデータ活用を加速しよう！」の内容についてまとめています。

セッション情報

登壇者

アマゾンウェブサービスジャパン株式会社技術統括本部レディネスソリューション本部
ソリューションアーキテクト川村誠氏

セッション概要

オープンソースソフトウェア(OSS)を分析に利用する多くのお客様は、データを分析して価値を見出すために利用すべき時間と労力を運用に使っています。AWS のマネージドサービスを使うと運用の手間を省き、より多くの時間と労力をデータ分析に活用できるようになります。本セッションでは、データ分析ワークロードにおける典型的な OSS 運用の課題を解決するマネージドサービスの魅力と活用事例についてご紹介します。

レポート

アジェンダ

AWSの分析マネージドサービスに移行する理由
マネージドなビッグデータ分析サービスへの移行
サーバレスなアドホッククエリ分析サービスへの移行
マネージドなリアルタイム分析サービスへの移行

AWSマネージドサービスに移行する理由

運用管理が必要な分析サービスは、複雑であり、時間とコストがかかる
- ハードウェア / ソフトウェアの導入、設定、パッチ適用、バックアップ
- 計算/ストレージリソースに関するキャパシティプランニングとリソース拡張
- パフォーマンス、スループット、レイテンシー、高可用性に関する課題
- セキュリティとコンプライアンスの厳守

AWSが提供するフルマネージドな分析サービス

AWSの提供する分析サービスに移行すると、価値創出により多くの時間とコストが利用可能になる
- 最も簡単にデータレイクと分析環境を構築できる
- 最もセキュアなインフラを分析に利用できる
- 最も包括的でオープン
- 最もスケーラブルで費用対効果が高い

マネージドなビッグデータ分析サービスへの移行

オンプレミスまたはセルフマネージドなHadoopをマネージドサービスに移行

典型的な課題

Apache Hadoop / Apache Spark には複数のオープンソースソフトウェアフレームワークで構成されるエコシステムがあり、それぞれにリリースサイクルがあるため個別に保守することが非常に難しい
従来のビッグデータプラットフォームでは、データとコンピューティングを一緒に設置する必要があるため、ビジネスニーズを満たすための拡張が困難でコストが高くなる

Amazon EMR

新しいデプロイモデル

Amazon EKSでAmazon EMRを実行可能
既存のデプロイモデルに追加
KubernetesでのSparkジョブ実行がシンプル化

Amazon EMRへの移行による性能向上

オープンソースのApache Spark 3.0よりも1.7倍速いパフォーマンスを40%のコストで実現
オープンソースの Presto 0.238よりも最大 2.6倍のパフォーマンスを80%のコストで実現
Graviton2 インスタンス利用で平均11.5%のパフォーマンス向上
Graviton2 インスタンス利用で平均25.7%のコスト削減

導入事例

FINRA

サーバレスなアドホッククエリ分析サービスへの移行

オンプレミスまたはセルフマネージドなPrestoをサーバレスサービスに移行

典型的な課題

ビッグデータに対してアドホックにクエリ分析を実施したいが、定常業務ワークロードに影響を与える可能性があるため、安易に実行することが難しい
常に必要なワークロードではないため、アドホックなクエリ分析のためだけにリソースを増強することは困難

Amazon Athena

Amazon Athena Federated Query

リレーショナル、非リレーショナル、オブジェクト、またはカスタムデータソース間でクエリを実行する
オンプレミス、または、クラウドデータソース間でクエリを実行する
アドホックな調査、複雑なパイプライン、アプリケーションに使用可能
データソースコネクターを利用して Athena クエリエンジンを拡張可能に

導入事例

株式会社ナビタイムジャパン

マネージドなリアルタイム分析への移行

オンプレミスまたはセルフマネージドなApache Kafkaをフルマネージドなサービスに移行する

典型的な課題

Apache Kafkaは、リアルタイムストリーミングデータパイプラインとアプリケーションを構築するためのオープンソースプラットフォーム
Apache Kafkaクラスターは、実稼働環境でのセットアップ、拡張、管理が困難。以下のような作業が発生する
- サーバーのプロビジョニング
- Apache Kafka の手動設定
- 障害発生時のサーバーの交換
- サーバーのパッチ適用とアップグレードの調整
- 高可用クラスターの設計
- データが堅牢かつ安全に保存されることの保証
- モニタリングとアラームのセットアップ
- 負荷変動に対する線蜜なスケーリングイベントの計画

Amazon Managed Streaming for Kafka (Amazon MSK)

Apache Flinkアプリケーションをフルマネージドサービスに移行する

典型的な課題

Apache Flink は、データストリームを処理するためのオープンソースのフレームワークとエンジン
ストリーミングアプリケーションの構築、管理、統合は複雑で、ストリーミングデータフローは随時変化する。ストリーミング分析サービスは、到着したデータをすぐに処理する必要があり、多くの場合、1時間あたり数百万件のイベント速度でストリーミングデータフローを処理する必要がある

Amazon Kinesis Data Analytics for Apache Flink

その他のデータ分析関連サービス・機能

本セッションで言及されてなかった、他のデータ分析サービス・機能についての紹介

所感

個人的にまだ触ったことがないデータ分析サービスの背景や特徴について、簡単に学べることができ非常に有意義なセッションでした！
実際に触ったり導入したりすることでさらにフルマネージドなデータ分析サービスの恩恵を感じることができそうですね！

【レポート】AWS の分析マネージドサービスでデータ活用を加速しよう！#AWS-08 #AWSSummit

セッション情報

登壇者

セッション概要

レポート

アジェンダ

AWSマネージドサービスに移行する理由

AWSが提供するフルマネージドな分析サービス

マネージドなビッグデータ分析サービスへの移行

Amazon EMR

新しいデプロイモデル

Amazon EMRへの移行による性能向上

導入事例

サーバレスなアドホッククエリ分析サービスへの移行

Amazon Athena

Amazon Athena Federated Query

導入事例

マネージドなリアルタイム分析への移行

Amazon Managed Streaming for Kafka (Amazon MSK)

Amazon Kinesis Data Analytics for Apache Flink

その他のデータ分析関連サービス・機能

所感

関連記事

AWSで探す

注目のテーマ

プロダクトやサービスで探す

特集やシリーズから探す

EVENTS