[レポート] SAP利用顧客に向けたAWS上のデータレイク構築 #GPSTEC338 #reinvent

2019.12.03

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんにちは!DA事業本部の大高です! 本日から現地ラスベガスにて、AWS re:Invent 2019のセッションレポートをお伝えします。

概要

Although this Global Partner Summit breakout is open to anyone, it is geared toward current and potential AWS Partner Network Partners. Many customers are migrating their on-premises SAP applications to AWS, opening up interesting opportunities to build data and analytics transformations using SAP data with AWS data lake solutions. One of the biggest questions customers have is how to extract data from SAP applications. In this demo-driven session, we show the best practices and reference architectures for extracting data from SAP applications at scale. You will take home prescriptive guidance on how to design high-performance data extractors using services like AWS Glue and AWS Lambda with code samples for various use cases that you can implement in your customers’ projects.

このグローバルパートナーサミットのブレイクアウトは誰でも参加できますが、現在および将来のAWSパートナーネットワークパートナーを対象としています。多くのお客様は、オンプレミスのSAPアプリケーションをAWSに移行しており、AWSデータレイクソリューションでSAPデータを使用してデータと分析の変換を構築する興味深い機会を得ています。顧客が抱える最大の疑問の1つは、SAPアプリケーションからデータを抽出する方法です。このデモ駆動型セッションでは、大規模なSAPアプリケーションからデータを抽出するためのベストプラクティスとリファレンスアーキテクチャを示します。 AWS GlueやAWS Lambdaなどのサービスを使用して、顧客のプロジェクトに実装できるさまざまなユースケースのコードサンプルを使用して、高性能データ抽出を設計する方法に関する規範的なガイダンスを取り上げます。

スピーカー

スピーカーは以下の方になります。

  • KK Ramamoorthy - Principal Solutions Architect, Amazon Web Services

動画

SAPとのデータ連携における考慮事項

  • SAPとのデータ連携においては以下を考慮します。

  • 「どのように」の前に「何を」と「何故」を考える
  • データボリュームとパフォーマンス要求
  • データコンテキスト
  • 「買う」か「構築」するか
  • ライセンス要求について
  • オーナーシップのトータルコスト

SAPからのデータ連携パターン

SAPからのETLにおけるExtract(抽出)のパターンとしては、以下が全体像になります。

図の左側のSAPからの抽出パターンとしては、次に挙げるパターンがあります。

DBレベルの抽出

  • データベースレベルでのデータ抽出
  • サードパーティのアダプタを利用するか、Glue/Lambdaを利用して抽出

サードパーティアダプタ

  • DBファイルを利用した抽出。DBへの大きなパフォーマンス影響はなし。
  • チェンジデータキャプチャのサポート
  • 潜在的なライセンス制約
  • SAPアプリケーションのコンテキストを保持しないので、変換やテーブル間のリレーションの再構築が必要

AWS Glue/Lambda

  • 追加のソフトウェアを必要とせず、JDBCドライバ、または、Node.js/Pythonパッケージでデータを取得可能
  • DBアクセスによる、パフォーマンスとライセンスの潜在的なインパクト
  • チェンジデータキャプチャをサポートしない
  • 追加のカスタム開発

アプリケーションレベルの抽出

  • アプリケーションレベルのコンテキストの維持
  • テーブル間の関係、カスタマイズ、パッケージ設定が維持される
  • SAPの外部での変換が少ない
  • out-of-the-boxチェンジデータキャプチャはサポートされない
  • AWS Glue/Lambdaの場合、追加開発が必要
  • アプリケーションレベルアクセスによる、パフォーマンスとライセンスの潜在的なインパクト

Operational data provisioning (ODP) ベースの抽出

  • アプリケーションレベルのコンテキストの維持
  • テーブル間の関係、カスタマイズ、パッケージ設定が維持される
  • SAPの外部での変換が少ない
  • ODPキューを用いたチェンジデータキャプチャのサポート
  • マイクロバッチを用いた抽出のサポート
  • AWS Glue/Lambdaの場合、追加開発が必要
  • アプリケーションレベルアクセスによる、パフォーマンスとライセンスの潜在的なインパクト
  • SAP DataHubに対する追加のライセンスコスト

SAP System Landscape Transformation (SLT) ベースの抽出

  • チェンジデータキャプチャをサポートし、トリガーベースのレプリケーション
  • SAPのサポートターゲットとSAP DataHubを用いた実装にはランタイムライセンスで十分
  • カスタムABAPコードにはSLT用エンタープライズライセンスが必要になる
  • BADIsがAWSサービスを用いたネイティブな実装を利用する場合、追加開発が必要
  • SAP DataHubの追加ライセンスコスト

SAPデータを用いた End-to-end のエンタープライズ分析

以下が全体像となります。抽出と変換をGlue/Lambdaで行い、データはS3に格納して、Redshift、AthenaやElasticSearchで分析する流れです。更には、QuickSightを利用してE2Eの分析も行います。

QuickSightによる分析結果の表示デモも紹介されました。

参考資料

今回のセッションの内容のいくつかは、下記のブログでも取り上げられており、サンプルなどもあるとのことでした。

AWS for SAP

まとめ

以上、「SAP利用顧客に向けたAWS上のデータレイク構築」のレポートでした。

個人的には、いくつかSAPをデータ抽出元にした案件に関わることがあったのですが、これまで知らなかったデータ抽出パターンを知ることが出来て興味深かったです。

それでは、また!