[レポート]  ANT206: Amazonの大規模分析におけるAWSサービス活用法 #reinvent

[レポート] ANT206: Amazonの大規模分析におけるAWSサービス活用法 #reinvent

Clock Icon2018.11.27

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

はじめに

本記事はAWS re:Invent 2018のセッション「ANT206- Under the Hood: How Amazon Uses AWS Services for Analytics at a Massive Scale」のレポートです。

As Amazon's consumer business continues to grow, so does the volume of data and the number and complexity of the analytics done in support of the business. In this session, we talk about how Amazon.com uses AWS technologies to build a scalable environment for data and analytics. We look at how Amazon is evolving the world of data warehousing with a combination of a data lake and parallel, scalable compute engines, such as Amazon EMR and Amazon Redshift.

スピーカーは以下のお二人。

  • Naveen Yajaman - Principal Technical Program Manager
  • Craig Woods - Senior Solutions Architect

レポート

Amazonにおける分析
 様々なビジネスユニットのデータをDWHに蓄積
 多様なユーザーとユースケース
 大量のデータセット
 900Kのデイリージョブ、80Kのアクティブユーザー
 
レガシーDWH
 Oracleを利用
 結合されたコンピュータとストレージ
 大量のハードウェア
 高価なライセンス
 ピーク時に対応可能とするための高価なハードウェア
 メンテナンスにかかる人的コストが膨大

プロジェクトのゴール
 Amazonのビジネスにスケール可能
 オープンなアーキテクチャ
 様々なアナリティクスの技術に対応
 AWSのテクノロジーを活用し、そこで得た知見をAmazonの顧客に提供

AmazonのレガシーDWH
 Oracle、DynamoDB、Auroraがデータソース
 ETLワークフローを介してOracleとRedshiftにデータを蓄積
 分析するユーザーやソフトウェア、アプリケーションにデータを提供

新DWHのアーキテクチャ
 データソースからのデータをメタデータと一緒にS3に蓄積
 S3に蓄積されたメタデータとデータはRedshiftとGlueに同期
 同期されたデータをETLワークフローやEMRを使って分析

レガシーDWHからの移行
 データをロードして新データレイクにロード
 レガシーDWHからData Moverを使って新データレイクに同期
 SCTによってOracleからRedsfhitに変換
 2週間でレガシーDWHを廃止

Redshift Spectrum
 Amazon RedshiftからExternal TablesでS3にデータを格納
 long-tailをサポート、巨大なユーザーデータに対応可能
 ミニマムな投資でインテグレーションを可能に

ユーザーの経験
 hootシステムというインターフェースを用意
  スキーマやデータを簡易に検索し表示

マイグレーションのコンテキスト
 ビジネスを止めないこと
 分析をリデザインすること
 データの中央集権化を止めること
 コストエフェクティブであること

マイグレーションプログラムのコンポーネント
 マネジメント
  ユーザーのリクエストをしっかりと聞く
 ツール
  SCT、テーブルデータの移行ツール、トラッキング
 アーキテクチャ
  ガイダンスと教育

マイグレーションのキー
 リーダーシップからのサポート
  意思決定者からしっかり組織に伝える
 セルフサービスツールの拡充
  ユーザーが自分で分析出来るように
 レガシーDWHと新DWHの一時的な共存
 エンジニアとユーザーの再教育
 コミュニケーション
  大きな変更をする場合はコミュニケーションがとても重要
  常にオーバーなくらいコミュニケーションすること

結論
 AWSは大規模なデータ分析に活用出来る
 S3はスケーラブル、セキュア、ロバスト、コストエフェクティブ
 オープンシステムアーキテクチャを選択する
 12/1にOracleのレガシーDWHを完全にシャットダウンする
 ペタバイトのDWHをAWSにマイグレーションすることは可能   

さいごに

大容量のDWHをAWSに移行した実績として、とても大きなチャレンジだったと思います。この事例が出ることでAWSの活用が更に広がるのではないでしょうか。

Share this article

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.