[レポート] AWS へのデータ移行におけるベストプラクティス:オンラインとオフライン #STG210 #reinvent

2023.03.29

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

アノテーション テクニカルサポートの川崎です。

本記事は AWS re:Invent 2022 のセッションレポートとなります。

概要

このセッションでは、AWS DataSync と AWS Snow ファミリーを使用して、Amazon S3、Amazon EFS、および Amazon FSx へのデータの移行を加速する方法を学びます。 ユースケースとベストプラクティスを調べ、いつオンラインまたはオフラインの方法を選択するか、AWS Snow ファミリーと DataSync を併用する方法を学びます。

セッション動画

アジェンダ

  • データ移行の概要
  • オンライン vs オフライン
  • AWS DataSync の概要
  • AWS Snow ファミリーの概要
  • DataSync と Snow を併用する

データ移行の概要

大規模なデータ転送は難しい課題

  • スクリプトの構築と展開
  • ネットワークの可用性の処理
  • データの暗号化と検証
  • パフォーマンスの保証
  • エラーからの回復

データとアプリケーションの移行を合理化

AWS は、移行のニーズに合わせたさまざまなデータ移行サービスを提供

  • AWS DataSync
  • AWS Snow Family
  • AWS Application Migration Service
  • AWS Database Migration Service
  • AWS Storage Gateway

データとアプリケーションの移行を合理化

AWS は、移行のニーズに合わせたさまざまなデータ移行サービスを提供

  • AWS DataSync
  • AWS Snow Family

オンライン vs オフライン

オンラインとオフラインのクラウド データ移行

  • オンライン
    • 利用可能な帯域幅
    • 高帯域幅 WAN または AWS Direct Connect
    • ファイアウォール構成が必要な場合があります
    • 転送後すぐに AWS でデータを利用可能
  • オフライン
    • 限られた帯域幅 低帯域幅、帯域幅の制約、WAN の使用率の高さ、エアギャップ
    • デバイスのデータセンター容量
    • 端末管理
    • データのインポートに時間を割く

大規模 (500 TB 以上) のデータ移行の課題

オンラインでの転送にかかる時間

  • AWS Snow ファミリーを使用
    • オフライン データ移行用
    • 帯域幅の制限
    • 柔軟なタイムライン
  • AWS DataSync を使用
    • オンライン データ移行の場合
    • 利用可能な帯域幅
    • 厳密なタイムライン

AWS DataSync の概要

AWS データ同期の概要

AWS DataSync とは?

AWS ストレージとの間でのファイルおよびオブジェクト データのコピーを簡素化、自動化、および高速化するオンライン データ移行サービス

  • 高速データ転送
  • 使いやすい
  • 安全で信頼できる
  • フルマネージド
  • 費用対効果の高い

AWS DataSync のユースケース

  • アプリケーション データを AWS に移行する
  • オンプレミス ストレージをアーカイブして容量を解放する
  • データの保護と回復のためにレプリケーションを行う
  • タイムリーなクラウド内処理のためのデータ転送

AWS DataSync でできること

AWS DataSync で何ができますか?

QUICKLY, SIMPLY, AND SECURELY MIGRATE YOUR DATA TO AND FROM AWS STORAGE SERVICES

  • オンプレミス
    • NFS、SMB、オブジェクト
    • Hadoop (HDFS)
  • エッジ
    • AWS Snowcone
    • Amazon S3 on Outposts
  • クラウド間の移行
    • Google クラウド ストレージ
    • Azure ファイル
  • AWS
    • Amazon S3
    • Amazon FSx (all file systems)
    • Amazon EFS

AWS DataSync Discovery (Preview)

AWS への移行を簡素化および加速

  • ストレージ使用率に関する洞察を得る
    • 自動データ収集
    • データの集約ビューのダッシュボード
    • 十分に活用されていないリソースを見つける
  • AWS Storage サービスの推奨事項を受け取る
    • ユースケースに適したストレージを選択
    • AWS ストレージ構成を最適化する
    • コストを最小限に抑えながらパフォーマンスのニーズを満たす
  • 移行計画を簡素化
    • 時間、労力、およびコストを最小限に抑える
    • 推定コストを使用して予算を知らせる
    • 移行前に仮定を検証する

詳細はこちら
aws.amazon.com/datasync/discovery

オンプレミス転送

TRANSFER DATA BETWEEN ON-PREMISES STORAGE SYSTEMS AND AWS STORAGE SERVICES

  • NASアレイ、Windows Serverなど
    • NFS、SMB
  • オブジェクトストレージ
    • S3 API
  • Hadoop クラスター (HDFS)
    • HDFS
  • DataSync エージェント (VMware、Hyper-V、KVM にデプロイ)

  • AWS DataSync マネージド サービス

  • Amazon S3

  • Amazon FSx
  • Amazon EFS

クラウド内転送

TRANSFER DATA BETWEEN AWS STORAGE SERVICES QUICKLY, EASILY, AND SECURELY

  • 展開または管理するインフラストラクチャがない
  • サポートされている AWS ストレージ間でデータをコピーする
  • 同じリージョン内またはリージョン間でデータをコピーする
  • すべてのトラフィックは AWS ネットワーク内にとどまります
  • TLS 1.2 を使用して飛行中に暗号化されたすべてのトラフィック

AWS DataSync: 仕組み

  • 1 エージェントは、オンプレミス ストレージ、エッジ ロケーション、または他のクラウド内のストレージに接続するために展開されます
  • 2 ソース ストレージと宛先ストレージのロケーション リソースを作成する
  • 3 AWS DataSync マネージド サービスが AWS ストレージに接続し、転送を調整します
  • 4 オンプレミスと AWS 間の転送では、インターネット、AWS Direct Connect、および AWS Virtual Private Network (VPN) がサポートされています

データをクラウドに移動して、より多くの洞察を得る

TMAP Mobility は、AWS DataSync を使用して 2.4 PB の Hadoop データを転送しました

AWS DataSync を使用して、TMAP Mobility Co., Ltd. は PB スケールの Cloudera HDFS データを 2 か月以内に迅速かつ確実に転送することができました。HDFS に対する AWS DataSync のネイティブ サポートにより、タイトなプロジェクトの立ち上げスケジュールを満たすことができました。
キム・ウンヒ
データインテリジェンスグループ
リーダー

  • 問題
    • TMAP Mobility (韓国) は、オンプレミスの Cloudera HDFS の 2.4 PB を 2 か月以内に Amazon S3 の新しいデータ レイクに転送する必要がありました。 新しいデータ レイクは、1 日のアクティブ ユーザーが 500 万人を超える既存のモバイル アプリケーションをサポートします。
    • 新しいデータ レイク プロジェクトは、AWS マネージド サービス ベースの分析パイプラインを使用して、リアルタイムおよびバッチ処理を活用します。
  • 解決
    • TMAP Mobility は、パフォーマンス、信頼性、使いやすさから、ペタバイト規模のデータ移動ソリューションとして AWS DataSync を選択しました。 タスク監視、データ暗号化、データ整合性検証、HDFS のネイティブ サポートなどの統合機能により、プロジェクトのリスクがさらに軽減され、運用が簡素化されました。
  • 結果
    • AWS DataSync を使用して、TMAP Mobility はデータを新しい Amazon S3 データレイクに移行するスケジュールを満たすことができました。 フルマネージド型のサービスである AWS DataSync により、サービスの経験がないオペレーターでも、2 か月という短い期間内に移行を簡単に構成および実行できるようになりました。

AWS Snow ファミリーの概要

AWS Snow ファミリーの概要

AWS Snow ファミリーとは?

AWS との間でペタバイト単位のデータを移動したり、エッジでデータを処理したりします。

  • AWS Snowcone
  • AWS Snowcone SSD
  • AWS Snowball

AWS Snow ファミリーの目的

  • オフラインのデータ移動
    • 安全で高速なデータ収集、処理、および AWS クラウドへのデータ移動を、主にオフラインだけでなくオンラインでも提供する
  • 堅牢なエッジ コンピューティング
    • AWS のサービスと機能を切断されたエッジまたは部分的に接続されたエッジにもたらす
  • 顧客サイト

  • エッジ サイト

AWS Snow ファミリーの主な価値提案

  • オフラインのデータ移動
    • Snow ファミリー デバイスは、帯域幅が制限されているか存在しない場合にデータを移行するのに役立ちます
  • 安全
    • Snowball Edge デバイスは、不正開封防止エンクロージャ、256 ビット暗号化、および業界標準のトラステッド プラットフォーム モジュール (TPM) を使用します。
  • 部分的または完全に切断された状態で実行
    • Snow デバイスと機能は、ネットワーク接続なしで完全に動作します
  • スケーラブル
    • 必要に応じて Snow デバイスを追加または削除します
  • エッジでの AWS コンピューティング サービスと機能
    • Snow は、EC2、EBS、S3、IAM などのコア AWS サービスと、Greengrass や Lambda などの AWS AI/ML 機能を提供します
  • クラウドの互換性
    • クラウドで使用されているものと同じ AWS サービス API を使用する

頑丈で戦術的なエッジのための AWS Snowball Edge

AWS を DDIL の堅牢なエッジとネットワーク接続のない、または制限された場所にもたらします

  • エッジ コンピューティングとエッジ ストレージの使用例:
    • 32 ~ 104 個の vCPU、208 ~ 416 GB の RAM
    • 28 TB NVMe または 80 TB HDD ストレージ
    • 最大 100G のネットワーキング
  • Tamper-resistant (耐タンパー性能、改ざん防止)

  • Tamper-evident (不正開封防止)

  • 最大 200G の衝撃に対応

  • エアドロップ可能
  • MIL-S-901D (衝撃試験)
  • FISMA High、FedRAMP ITAR、CJIS、および DoD SRG Impact Level 6 要件に適合

  • 無調整の電源およびデータセンター以外の環境 (0~45℃) で動作

  • 256 ビット暗号化で保護されたデータ

  • 非技術者が操作できるように設計されています

  • 重さ49ポンド、一人で扱えます

モバイル ワークロード用の AWS Snowcone

小型、超ポータブル、頑丈、安全な DDIL エッジ コンピューティングおよびデータ転送デバイス

  • 機能:
    • 2 vCPU、4 GB RAM
    • 8 TB HDD または 14 TB SSD
    • 1 または 10G ネットワーキング
  • Tamper-resistant (耐タンパー性能、改ざん防止)

  • Tamper-evident (不正開封防止)

  • 最大 50G RMS の振動に対応

  • 重量 44 ポンド (約20kg)で、バックパックに入れて運べる

  • 無調整の電源およびデータセンター以外の環境 (0~45℃) で動作

  • 256 ビット暗号化で保護されたデータ

  • 非技術者が操作できるように設計されています

ユースケース: M&E、インダストリアル IoT & 車載用途

Snow ファミリーでの AWS サービス

  • 頑丈なエッジと接続されていない場所でアプリケーションを実行
    • AWS IoT GreenGrass
    • Amazon IAM
    • Tape Gateway on Snow
    • AWS Data Sync
    • S3 Adapter
    • Amazon EBS
    • Amazon EC2
    • Amazon EKS Distro
    • AWS Lambda
    • Amazon SageMaker Edge
    • AWS IoT SiteWise Edge

Snow ファミリー向け AWS OpsHub

GUI APP FOR CUSTOMERS TO MANAGE AWS SNOW FAMILY DEVICES

AWS OpsHub の詳細については、AWS Snowcone のリソース ページ (https://aws.amazon.com/snowcone/resources) にアクセスしてください。

オフライン データ移行用の AWS Snow ファミリー

AWS Snow ファミリーのデータ移行ワークフロー

  • ジョブの作成とプロビジョニング
    • AWS Snow ファミリー管理コンソール
  • デバイスの発送
    • 宅配便サービス
  • デバイスが到着
    • AWS OpsHub または AWS CLI を使用して AWS Snow ファミリー デバイスを管理します
  • データがコピーされました
    • 1GB/秒以上のローカルネットワーク経由でデータをコピー
  • デバイスを AWS に送信
    • 宅配便サービス
  • デバイスが AWS に到着
    • データが Amazon S3 バケットに取り込まれ始めます
  • ジョブの完了
    • NIST 800-88 規格を使用した安全な消去

Joyn は AWS Snowball Edge を使用して 3.4 PB を Amazon S3 に移行します

  • チャレンジ
    • 高い維持費
    • オンライン移行では 3 か月の移行目標を達成できない
    • 柔軟性と可用性の向上の必要性
  • 解決
    • 複数の AWS Snowball Eage Optimized を同時に使用することを選択
    • Amazon S3 Intelligent Tiering の最適化されたストレージ費用を活用。
  • 結果
    • 90 日間で 3.4 ペタバイト (PB) を移動
    • オンプレミスのデータセンターを閉鎖することで、年間 50 万ドル以上の節約
    • 総所有コスト (TCO) の増加なし

AWS Snowball Edge を使用したアーカイブの移動は、高速、シンプル、かつ安全でしたが、費用対効果の高さにも感銘を受けました。
Stefan Haufe
Media Engineer, Joyn

AWS Snowball を使用した大規模な移行

LEARNED FROM MULTI-PETABYTE CUSTOMER MIGRATIONS

  • 概念実証を実行する
    • 環境問題を早期に発見して修正する
    • ステージング ワークステーションの展開
    • 小さなファイル ( 5 MB) を確保します
    • データ転送のベンチマークと最適化 (目標 300 MB/秒 – 500 MB/秒)
  • ジョブを注文する前に、アカウント チーム / TAM と一緒にデバイスとスケジュールを計画してください
    • ホワイトペーパー: AWS Snowball Edge データ移行ガイド
    • ブログ: Snowball Edge を使用したデータ移行のベスト プラクティス

Snow 大規模データ移行マネージャー

大規模なデータ移行プロジェクトを計画、実行、監視する

  • Snow Large Data Migration Manager
    • 複数の Snow デバイスを必要とするデータ移行プロジェクトを計画する簡単な方法を提供します
    • データ転送のニーズに基づいて、複数の Snowball および Snowcone ジョブを計画します
    • Snow のジョブ、ロジスティクス、およびデータ取り込みの進行状況に関するリアルタイムのステータスと洞察を得る

DataSync と Snow を併用する

DataSync と Snow を併用する

AWS Snowball と AWS DataSync による大規模な移行

  • オンプレミスのストレージ システム
    • Snowball デバイスでの初期転送
    • AWS DataSync を使用した増分転送

AWS Snowcone と AWS DataSync を使用した進行中のワークフロー

まとめ

要約

重要ポイント (Key takeaways)

  • クラウド移行戦略の目標とリソースを評価する
  • オンラインとオフラインの移行の組み合わせを検討する
  • 移行プロジェクトを合理化するために、アーカイブと本番でデータを分離する
  • 利用可能なツールと AWS チームを使用して移行を計画する

リソース

DataSync の使用を開始する aws.amazon.com/datasync

Snow Family の使用を開始する aws.amazon.com/snowball

追加のセッション

  • STG211 - ハイブリッド クラウド ストレージとエッジ コンピューティング: 必要な場所に AWS
  • STG214 - AWS DataSync (リプレイ) を使用して、安全なデータ移行を大規模に加速する

AWS ストレージの学習を続ける

  • 学習計画を立てる
    • AWS Skill Builder を使用して AWS ストレージ学習プランを設定します
  • 知識を増やす
    • ランプアップ ガイドを使用して、ストレージに関する知識を深めてください
  • AWS Storage バッジを獲得
    • デジタルバッジを獲得して知識を実証

aws.training/storage