AWS Data Exchange for Amazon S3とAWS Data Exchange for AWS Lake Formationが発表されました #reInvent

2022.12.02

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

ども、re:Invent現地参加組のもこ@札幌オフィスです。

3日目のPartner Keynoteにて、AWS Data Exchange for Amazon S3とAWS Data Exchange for AWS Lake Formationが発表されました。

本ブログではAWS Data Exchange for Amazon S3とAWS Data Exchange for AWS Lake Formationについてご紹介します。

AWS Data Exchange for Amazon S3

AWS Data Exchangeは、データ分析や機械学習のための元ネタとなるデータセットをサブスクライブする事ができるサービスです。

サブスクライバーは、Amazon Data Exchange for Amazon S3のデータセットをサブスクライブすると、S3のバケットに対してデータをセットアップしたり、データをS3間でコピーしたり、ストレージ料金を支払うことなく、直接S3のバケット(アクセスポイント)に対してアクセスすることができます。

S3に対して直接アクセス出来るようになるため、Athena, SageMaker, Amazon EMRなどのAWSサービスからも柔軟に参照する事ができます。

やってみる

AWS Data Exchangeの画面にて、AWS Data Exchange for Amazon S3に対応しているデータ一覧を検索する事ができます。今回は試しに「COVID-19 - World Confirmed Cases, Deaths, Testing, and Vaccinations」データセットを利用してみます。

データセットのサブスクライブ確認画面に行くと、「Amazon S3 data access - preview」があることを確認できます。

続けてサブスクライブしていくと次の画像のように、S3のコマンドを利用して直接S3のバケットに対してアクセスできる事を確認できます。

AWS Data Exchange for AWS Lake Formation

AWS Data Exchange for AWS Lake Formationは、AWS Data Exchangeでサブスクライブしたデータセットに対して、Lake FormationからAWS Glue テーブルにアクセス出来るようになります。

AWS Marketplaceにて、AWS Data Exchange for AWS Lake Formationで利用できるデータセット一覧を検索する事ができます。

まとめ

AWS Data ExchangeでサブスクライブしたデータをS3のインターフェースを利用して、直接取得出来るようになったのは物凄く便利だと感じました。

また、データを登録するデータプロバイダーは既存のS3バケット上にAmazon Data Exchange for Amazon S3を簡単にセットアップすることができ、S3バケット全体、または特定のプレフィックスのS3オブジェクトに対して設定する事ができます。

AWS Data Exchangeプラットフォームを利用してDatasetの販売もできるため、Datasetの販売に興味がある方はぜひ販売を検討してみてはいかがでしょうか。

現場からは以上です。

References