[レポート] Multicloud and on-premises data transfers at scale with AWS DataSync に参加しました #AWSreInvent #STG353

2023.12.05

AWS DataSyncのビルダーズセッションに参加しましたのでご紹介します。

概要

image

Join this builders’ session to immerse yourself in the world of multi-cloud and on-premises data transfers. Learn how to configure and perform a data transfer from an on-premises NFS server and a publicly accessible Google Cloud Storage bucket that is hosting a public dataset to Amazon S3. AWS DataSync makes it fast and simple to migrate your data from other clouds or on-premises NFS servers to AWS as part of your business workflow. Walk away with a step-by-step guide on how to scale out DataSync tasks using multiple DataSync agents. You must bring your laptop to participate.

以下、翻訳です。

このビルダー セッションに参加して、マルチクラウドとオンプレミスのデータ転送の世界にどっぷり浸ってください。オンプレミスの NFS サーバーと、パブリック データセットをホストしているパブリックにアクセス可能な Google Cloud Storage バケットから Amazon S3 へのデータ転送を設定して実行する方法を学びます。AWS DataSync を使用すると、ビジネスワークフローの一部として、他のクラウドまたはオンプレミスの NFS サーバーから AWS にデータを迅速かつ簡単に移行できます。複数の DataSync エージェントを使用して DataSync タスクをスケールアウトする方法についてのステップバイステップ ガイドを読んで終了します。参加するにはラップトップを持参する必要があります。

レポート

Agenda

image

  • 他のクラウドやオンプレミスからAmazon S3へのデータ転送
  • データ移行のためのスケールアウトアーキテクチャを構築
  • DataSyncをスケールアップして移行を加速する方法を理解する

Single DataSync task and agent

1 つの DataSync エージェントで 1 つのタスクを実行

image

Google Cloud Storage to Amazon S3

image

On premises to Amazon S3

image

Multiple agents for a single task

複数の DataSync エージェントで1 つのタスクを実行

image

Multiple agents per task

Google Cloud Storage から Amazon S3へのデータ転送で、複数エージェントで一つのタスクを実施

image

Maximize bandwidth and copy large datasets with multiple tasks

帯域幅を最大化し、複数のタスクで大規模なデータセットをコピーする

image

Multiple tasks scale out agents

オンプレミスからAmazon S3へのデータ転送で、複数タスクのスケールアウトエージェント

image

workshop

ワークショップでは事前にCloudFormationによって環境が用意されていましたので、 DataSync エージェントのアクティブ化に必要なDataSyncエージェントのセキュリティグループに HTTP 80ポートをMyIPから許可するところから始めました。

image

DataSync エージェントをアクティブ化する

DataSync > Agents > Create agent

image image

エージェントは2つ作成しましたが、時間がなくて、2つ使用して実行することはできませんでした。

image

Google Cloud Storage から AWS へのデータの移行

今回はGoogle Cloud Storage から Amazon S3 へデータを移行しました。 一つの DataSync エージェントを使用して DataSync タスクを開始し、タスク メトリックを観察します。

image

Google Cloud Storage バケットのファイルを確認

image

これらのファイルを転送します。

DataSync タスクを作成する

DataSync > AgenTasksts > Create task

image

Configure source location

  • Source location options: Create a new location
  • Location type: Object storage
  • Agents: Agent-1
  • Server: storage.googleapis.com
  • Bucket name: gcp-public-data-arco-era5
  • Folder: /co/single-level-reanalysis.zarr/
  • Authentication Requires credentials is unchecked

Configure destination location

  • Destination location options: Create a new location
  • Location type: Amazon S3
  • S3 bucket: datasync-s3-workshop
  • S3 storage class: Standard
  • Folder: gcp-to-s3-with-single-agent/
  • IAM role: Click Autogenerate button

Configure settings

  • Task Name: gcp-to-s3-with-single-agent
  • Verify data: Verify only the data transferred
  • Set bandwidth limit: Use available

Data transfer configurationを以下のようにしました。

Specific files and folders から、Add Pattern で特定のフォルダ、特定のファイル名で始まるファイルをコピーするように設定します。

/stl1/10*
/stl2/10*
/stl3/10*
/stl4/10*
  • Copy object tags: OFF

Loggingでは Autogenerate をクリックして、Cloudwatch log groupとDataSync による CloudWatch への書き込みを許可する CloudWatch リソース ポリシーが作成します。

内容を確認して、Create taskでタスクを作成します。

DataSync タスクを実行する

タスクのステータスが「Available」となったら、Startをクリックし、Start with defaults オプションをクリックします。

image

Taskが実行されたらHistoryで進行状況を確認できます。

image

image

データスループットは、約 202 MB/秒 でした。また、ファイル転送は約6分かかり 209 ファイル/秒の速度でコピーされたことがわかります。

S3バケットに転送されたか確認してみる

image

image

設定通り、転送されていることがわかりました。

まとめ

ビルダーズセッションは60分のワークショップで気軽にAWSのサービスを体験できるので reinvent に参加したときは普段触らないサービスやキャッチアップしたいサービスを選んで毎回いくつか出るようにしています。DataSyncのセッションはリピートセッションが多くて人気がありました。マイグレーションを実施するためにマイグレーションサービスを知りたい人が多いのかなと思いました。またAWS DataSyncを使うことで数ステップでデータ転送が行えることを体験できました。

Resources

image

Scale out data migrations to AWS Storage using AWS DataSync