[レポート]AWSのデータベース・アナリティクス戦略 〜 既存サービスから最新情報まで総まとめ! #reinvent [DAT212-L]

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんにちは。DA事業本部の春田です。

本記事は、AWS re:Invent2019の DAT212-L: Leadership session: Database and analytics のセッションレポートです。

The English version is here.

概要

We’re witnessing an unprecedented growth in the amount of data collected and stored in the cloud. Generating insights from this data requires database and analytics services that scale and perform in ways not possible before. AWS offers a broad set of database and analytics services for processing, storing, managing, and analyzing all your data. In this session, we provide an overview of the database and analytics services at AWS, new services and features that we launched this year, how customers are using these services, and our vision for continued innovation in this space.

私たちは今、クラウドに収集され保存されているデータが前代未聞に拡大しているところを目の当たりにしています。このデータから見識を得るために、データベースやアナリティクスサービスが従来では不可能だった方法でスケールし、処理を行う必要があります。AWSは全てのデータの処理や保存、管理、分析を行うための、幅広いデータベース、アナリティクスサービスをを提供しています。このセッションでは、AWSのデータベースとアナリティクスサービスの全体像や、今年ローンチした新しいサービスとその特徴について、カスタマーがそのようにこれらのサービスを使用しているかについて、今後のイノベーションの展望についてご紹介します。

スピーカー

  • Raju Gulabani
    • VP Databases, Analytics and ML, Amazon Web Services

このセッションでは、Raju Gulabani氏が、今年のre:Inventで発表されたばかりの最新アップデートを含めた、AWSのデータベース・アナリティクス関連のサービス概要を全て解説しています。AWS上に新しいアプリケーションを立てたり、オンプレ環境からのマイグレーションを考えている方には、全体像を把握するのにかなり参考になるセッションかと思います!

はじめに

近年の新しい実状

  1. 顧客・従業員・デバイスが常につながっている状態
  2. データの爆発的増加
  • 新しい実状に合わせてデザイン
    • クラウド最適化
      • クラウドやデータの爆発的増加に合わせてゼロから構築するサービスを設計
    • 用途別に構築(Purpose built)
      • purpose-builtなサービスのポートフォリオを提供し、ワークロードを最適化する
    • フルマネージド
      • マネージドサービス通して、イノベーションを加速化

現在、多くの顧客からミッションクリティカルなアプリケーションで使われている。

AWSのポートフォリオ

3タイプのプロジェクト

  1. データからより速く、より価値あるものを抽出する
  2. 新しいスケールのデータに合わせて、アプリを構築する
  3. データ・インフラストラクチャをモダン化する

1. データからより速く、より価値あるものを抽出する

トラディショナルなデータウェアハウス戦略ではスケールしない

  • データレイク
    • Amazon S3
    • AWS Glue
    • Lake Formation

Amazon Redshift: データウェアハウス

  • 最初で最も人気なクラウドデータウェアハウス
    • Datalake & AWS Integration
    • データレイクとAWSインテグレーション
      • Redshift Spectrum
    • 最高のパフォーマンスとスケーラビリティ
      • 超並列処理(Massively parallel processing; MPP) アーキテクチャ
      • シェアードナッシングモデル
    • 最もセキュアで迎合的
    • 最も低いコスト
  • Amazon Redshift Federated Query

  • 運用中のデータベース内で生成されたリアルタイムデータを、Redshiftクラスタからクエリできる

  • RA3インスタンス (GA)

  • コンピュートノードをストレージから分離
  • S3バックのストレージ
  • コンピュートとストレージを分離して課金することで、データウェアハウスを最適化

  • AQUA - Advanced Query Accelerator (COMING IN 2020)
  • コスト増加なしに、他のどのDWHよりもRedshiftを10倍高速化

Amazon EMR: ビッグデータ処理

  • Spark、Hadoop、Hive、Presto、HBaseといったビッグデータアプリケーションをAWS上で簡単に実行
    • 最新バージョン
    • 低コスト
    • S3ストレージを使用
    • 簡単、フルマネージド
  • Amazon EMRのSparkでパフォーマンス改善

  • Apache Sparkのランタイムを改善し、2.6倍パフォーマンスが高速化、コストが10分の1に

  • Amazon EMR on AWS Outposts (GA)

  • オンプレのデータセンターをもう一つのAZのように使用できる

Amazon Athena: インタラクティブなクエリサービス

  • 即座にクエリ実行
    • アドホッククエリ
  • クエリごとの課金
  • S3ストレージを使用
  • 簡単、サーバレス

  • Amazon Athena Federated Query (PREVIEW)

  • 複数のデータストアにまたがるデータに対してSQLを実行できる

Amazon Elasticsearch Service: 運用上の分析

  • フルマネージド、スケーラブル、セキュアなElasticsearchサービス
    • オープンソース: Elasticsearch API、Kibana、Logstash
    • フルマネージド
    • スケーラブル、セキュア、迎合的
    • 使った分だけ課金
  • UltraWarm for Amazon Elasticsearch Service (PREVIEW)

  • Elasticsearch用の新しいストレージ層
  • 従来のホット層に比べてコストが90%低い

AWS Glue: ETLとデータカタログ

  • シンプル、フレキシブル、コスト最適なETL
    • 面倒な作業を削減
    • サーバレス
    • よりパワフルに、コードの自動生成
  • クローラをデータソースに向ける → データフォーマットを解析 → 変換するコードを生成

AWS Data Exchange: データエクスチェンジ (GA)

  • クラウド上のサードパーティ製のデータを簡単に発見・購読
    • 様々なデータを一箇所で速く発見
    • 簡単にデータ分析
    • サードパーティのデータに効率的にアクセス

Amazon QuickSight: データの可視化

  • セッションごと課金、機械学習のインサイトを導入した、最初のクラウドネイティブサーバレスBIツール
    • Elasticスケーリング
    • サーバレス、インフラなし
    • AWSネイティブ、クラウド用に構築
    • APIサポート (NEW)
  • Machine learning in Amazon QuickSight
    • 異常検知
      • 数百万のビジネスメトリクスに対して、予期せぬトレンドや外れ値を発見
    • 予測
      • ポイント&クリックでシンプルに機械学習が予測
    • 自動でストーリー化
      • ビジネスメトリクスをわかりやすく要約
    • 機械学習による予想 (PREVIEW)
      • SageMakerのモデルで予測ダッシュボードを構築・可視化
  • Amazon QuickSight内で機械学習予測 (PREVIEW)

  • コーディングなし、ポイント&クリックで数時間で予測ダッシュボードを構築

    • どんなデータにも接続
      • データレイク、SQLエンジン、サードパーティ・アプリケーション、オンプレのデータベース
    • 機械学習のモデルを選択
      • 既存のカスタムモデルやAWS Marketplaceのパッケージモデルから、Amazon SageMaker AutoPliotでモデルを作成
    • 可視化して共有
      • 結果を分析、可視化、ダッシュボード構築、レポートをメール送信しビジネス関係者に共有
  • 分析を自身のツールに埋め込み (NEW)

  • QuickSight APIとフレキシブルなカスタマイズ機能によって実現
  • 全てサーバレス

  • Amazon QuickSiteを使用しているカスタマー

  • Capital One
    • インタラクティブなダッシュボードを分散配置し、組織内の数万のユーザーにレポート
  • Best Western
    • 全てのホテルフランチャイジーをまたぐ4万ユーザー用にQuickSiteをデプロイ
    • レガシーなレポーティングシステムと置き換え
  • Amazon.com
    • 多くにチーム、従業員、カンパニーワイドにQuickSiteを標準化し、高速で簡単にデータへのアクセスが実現

AWSのデータ分析サービスの最新アップデート

  1. スケールするデータレイクを最も簡単に構築
    1. Amazon Redshift Data Lake Export
    2. Amazon Redshift Federated Query
    3. Federated Query for Amazon Athena
  2. 最低のコストで最大のパフォーマンス
    1. AQUA for Amazon Redshift
    2. RA3 for Amazon Redshift
    3. Amazon Redshift Materialized Views
    4. UltraWarm for Amazon Elasticsearch Service
    5. Amazon EMRのSparkでパフォーマンス改善
  3. 最も包括的でオープン
    1. AWS Data Exchange
    2. Amazon EMR on AWS Outposts
    3. Amazon EMRでレコードレベルのINSERTとUPDATEに対応
    4. ML in Amazon Athena
    5. ML in Quicksight
  4. 最もセキュア
    1. Amazon S3 Access Points

AWS Data Lakeのユースケース: Sysco

  • SyscoはオンプレのデータウェアハウスをAWSへ移行した
  • Data lake → Amazon S3
  • 分析 → Amazon Redshift (Spectrum)、Amazon EMR、Amazon Athena
  • LexingtonやEDWといったニッチなデータマートを含め、様々なソースからデータをS3へ移行
    • 異なるタイプの人が新しい形でエコシスエムを使えるように
    • データが持つ本当のポテンシャルを発揮

2. 新しいスケールのデータに合わせて、アプリを構築する

このパートは、DAT209-Lとほぼ同じ内容ですが、DAT209-Lはより具体的なのに対し、このセッションはより概念寄りの内容になっています。

共通のデータカテゴリとユースケース

Amazon ElastiCache

  • RedisとMemcached対応のマネージドなインメモリデータストアサービス
  • リアルタイムアプリケーションをサブミリセカンドのレイテンシに保つ
    • 究極のパフォーマンス
    • セキュアで強固
    • 簡単にスケール
    • 高い可用性、信頼性

Amazon DynamoDB

  • 高速でスケーラブルなNoSQLデータベースサービス
    • 大規模パフォーマンス
      • スケールの限界がないデータベース
      • レガシーシステムなしに新しいアプリケーションをデザインしている場合、DynamoDBはベストなパフォーマンスを出す良い選択肢
    • サーバレス
      • 基本的なアイディア → 非常にシンプル
    • 包括的なセキュリティ
    • グローバルなユーザーとアプリのための、グローバルデータベース

Amazon DocumentDB(MongoDB互換)

  • 高速、スケーラブル、高可用なMongoDB互換のデータベースサービス
    • MongoDB互換
    • 高い可用性
    • 大規模パフォーマンス
    • 高セキュア

Amazon Managed (Apache) Cassandra Service (PREVIEW)

  • スケーラブルで、高可用、マネージドなCassandra互換のデータベースサービス
  • 大量のCassandraサーバーを簡単に管理し、利用可能な状態を保つ
    • Apache Cassandra互換
    • 管理用サーバーは必要ない
    • 一桁ミリセカンドの大規模パフォーマンス
    • シンプルなマイグレーション

Amazon Neptune

  • フルマネージドのグラフデータベース
    • オープン
    • 高速でスケーラブル
    • 信頼性
    • 簡単
  • グラフデータベースのユースケース
    • コネクション構造を変動的にナビゲート
    • リレーションの強さ、重み、質をもとにフィルタリングや計算

Amazon Quantum Ledger Database (QLDB)

  • フルマネージドの台帳型データベース
  • アプリケーションデータに加えた全ての変更を追跡、検証
  • 信頼できるインフラの上に構築でき、中央権限をもつ
    • 変更不可
    • 暗号的な認証
    • 非常にスケーラブル
    • 使いやすい
  • ユースケース: BMW Group
    • 課題
      • 自動車データ用に、信頼性があり、検証可能な台帳をトラッキングする必要があった
    • 解決
      • BMWでDigital Vehicle Passportアプリを構築
      • Amazon QLDBを使って、透明性が高く完全な自動車データを提供

Amazon Managed Blockchain

  • スケーラブルなブロックチェーンネットワークを構築・管理
    • Hyperledger FabricかEthereumを選択可能
    • スケーラブルでセキュア
    • フルマネージド
    • ブロックチェーンのアクティビティを簡単に分析
  • ユースケース: Nestle
    • ブロックチェーンで透明性の高いサプライチェーンマネジメントを構築

3. データ・インフラストラクチャをモダン化する

保守的で古いデータベース・プロバイダ

  • 非常に高価
  • 専売
  • 乗り換えが困難
    • ハードウェアベンダーの選択はデートのようなものだが、データベースベンダーの選択は結婚である
    • データベースはアプリケーションに密着しており、置き換えが難しい
  • 厳しいライセンス料
  • メール通知

Amazon Aurora

  • クラウドのために設計された、MySQLとPostgreSQL互換のリレーショナル・データベース
  • 10分の1のコストで、商用データベースのパフォーマンスと可用性
    • パフォーマンスとスケーラビリティ
    • 可用性と対障害性
    • 高セキュア
    • フルマネージド
  • 高パフォーマンス

  • 1秒間で数百万の読み込みまでスケールアウト
    • 3つのAZにまたがる最大15のリードレプリカ
    • 新しいリードレプリカに自動スケール
    • リードレプリカの障害からシームレスにリカバリ

Amazon Aurora、Athena、QuickSightで機械学習(NEW)

  • データベースや分析、BIに機械学習を導入
    • Amazon SageMakerとComprehendを導入
    • 基本的なSQL構文で機械学習予測
    • 機械学習についての専門性は不要
    • モデルから予測を抽出する時間を削減

AWS Database Migration Service

  • オンプレとAWS間をマイグレーション
  • データベース間をマイグレーション
  • スキーマやストアドプロシージャの自動変換
  • ほぼゼロダウンタイムでデータをレプリケーション

  • ユースケース: Amazon.com

    • 課題
      • スケールするには複雑でコストがかかる
        • 75PBのデータ
        • 7,500のOracleデータベース
      • 高価で厳しいOracleのライセンス
    • 解決
      • 以下へすべてマイグレーション
        • Amazon Aurora
        • Amazon RDS
        • Amazon DynamoDB
        • Amazon ElastiCache
        • Amazon Redshift
      • データベースコストを60%削減
      • データベースの管理費を70%削減
      • クリティカルなアプリケーションで40%パフォーマンス改善

時間がかかり複雑なオンプレ上のソフトウェア管理

  • ハードウェアとソフトウェアのインストール
  • 設定、パッチ、バックアップ
  • クラスタのセットアップ、高可用性のためのデータレプレケーション
  • キャパシティ・プランニング、コンピュートとストレージのためにクラスタをスケーリング

Amazon RDS

  • 人気のDBMSを選択できるマネージド型リレーショナルデータベースサービス
  • Amazon Aurora、MySQL、PostgreSQL、MariaDB、Microsoft SQL Server、Oracle
    • 簡単な管理
    • 高パフォーマンス、スケーラブル
    • 可用性と耐久性
      • マルチAZ、別のAZにスタンバイ状態のデータベース
    • Secure and compliant
    • セキュアで迎合的
  • Amazon RDS Proxy (PREVIEW)

  • フルマネージド、高可用なデータベースプロキシ
  • アプリケーションとデータベースの間にサーバレス層を提供

    • 新しいスケールのサーバレスアプリケーションコネクションを提供
    • データベースコネクションをプール、シェア
    • データベースのフェイルオーバー時に接続を保持、ダウンタイムを10秒にまで減らす
    • Secrets ManagerとIAMでMongoDBの認証情報
    • フルマネージド、プロビジョニング・パッチング・管理なし
  • Amazon RDS on AWS Outposts
    • オンプレのデータセンターでRDSを起動
    • セキュアでマネージドなRDSを数分でデプロイ
    • クラウドに移行することなくデータを保管
    • オンプレのデータベースとアプリケーションを統合
    • 自動でプロビジョニング、パッチング、バックアップ、リストア、スケーリング、フェイルオーバー

顧客はフルマネージドに移行したい

いつどのサービスを使うか?

状況 ソリューション
既存のアプリケーション MySQL -> Amazon Aurora, RDS for MySQL
PostgreSQL -> Amazon Aurora, RDS for PostgreSQL
MariaDB -> Amazon Aurora, RDS for MariaDB
Oracle -> Use SCT to determine complexity -> Amazon Aurora, RDS for Oracle
SQL Server -> Use SCT to determine complexity -> Amazon Aurora, RDS for SQL Server
MongoDB -> Amazon DocumentDB
Cassandra -> Amazon Managed Apache Cassandra Service
新規のアプリケーション リレーショナルの機能を避けたい -> Amazon DynamoDB
リレーショナルの機能が必要 -> Amazon Aurora
インメモリストア・キャッシュ Amazon ElastiCache
時系列データ Amazon Timestream
アプリケーションの全ての変更を追跡、暗号認証、中央権限 Amazon Quantum Ledger Database (QLDB)
中央権限を持たない Amazon Managed Blockchain
データウェアハウスとBI Amazon Redshift, Amazon Redshift Spectrum, and Amazon QUickSight
AWSとオンプレのデータをアドホック分析 Amazon Athena & Amazon QuickSight
Apache Spark, Hadoop, HBase (クエリ結果を抽出するのに困難なもの) Amazon EMR
ログ分析、運用監視、検索 Amazon Elasticsearch Service
リアルタイム分析 Amazon Kinesis and Amazon Managed Streaming for Kafka