【速報】データを上手に飼いならせ!SageMaker Data Wranglerが登場! #reinvent

2020.12.02

せーのでございます。

現在AWS re:InventではAndy Jassyのキーノートが行われています。

[随時更新] AWS re:Invent 2020 Keynote で発表された新サービスまとめ #reinvent | Developers.IO

ご機嫌いかがでしょうか、豊崎です。 今年もre:Invent 2020 キーノートではたくさんの新サービス/新機能が発表されるものと思います。 本投稿では、AWS re:Invent 2020のキーノートで発表された新サービスの記事をまとめます。 AWS re:Invent 2020では以下5つのキーノートが計画されています。 12/2: Andy Jassy Keynote 12/4: AWS Partner Keynote 12/9: Machine Learning Keynote 12/11: Infrastructure Keynote 12/16: Werner Vogels Keynote キーノート前に1つ大きな発表がありました。新たなEC2のインスタンス、Amazon EC2 Mac Instances が発表されました!実態としてはAWS Nitro Systemと連携したMac miniだそうです。起動には占有インスタンスが必要となります。 D3 / D3en Dense Storage Instances [詳細は別途Update] EC2 M5zn Instances - Fastest Intel

そこでSageMaker系で立て続けに新サービスが登場しましたので、速報でお知らせいたします。

SageMaker Data Wrangler

新たに登場した新サービスは「SageMaker Data Wrangler」と言います。

Amazon SageMaker Data Wrangler - Aggregate and Prepare Data for Machine Learning - Amazon Web Services

The fastest and easiest way to prepare data for machine learning Amazon SageMaker Data Wrangler reduces the time it takes to aggregate and prepare data for machine learning (ML) from weeks to minutes.

もともと機械学習には「Data Wrangling」という言葉があります。これは機会学習やデータ分析をする前処理を指します。ちなみに「wrangling」とは牛や馬を飼いならす、という意味です。
Data Wrangler、つまりカウボーイが牛や馬を上手に飼いならすように、データを上手に扱って機械学習で使いやすいように前処理するサービス、ということですね。

では主な機能を見ていきましょう。

インポート機能

まずはデータのインポート機能です。
これはAmazon S3、Amazon Athena、Amazon Redshift、AWS LakeFormation、Amazon SageMaker FeatureStoreなどの複数のデータソースからデータ選択ツールを使って、数クリックでデータを選択、インポートできます。またクエリが使えるようになっており、CSVファイルやデータベースから欲しいデータをフィルタリングしてSageMakerにインポートすることができます。

データ変換機能

次にデータの変換機能です。これは予め用意されている300以上のtransformationを使って、データを変換、結合することができます。テキスト列を数値化したり、SQLを使って複数のデータを結合したりする機能です。これは便利そうですね。

リアルタイムプレビュー

変換したデータをリアルタイムでグラフ表示する機能です。これによりデータの変換が正しいかどうかを目で確認して、実際のモデル学習に使用するかどうか判断できます。

まとめ

AWS には AWS Data WranglerというPythonのETL用ツールがありましたが、今回はそのSageMaker版、ということでますます使いやすくなりますね!
特に複数のデータレイクから横断してインポートできる、というのは使い勝手が良さそうです。 実際のSageMaker Studio上の挙動など、詳しい情報が分かり次第またお伝えします!