【速報】Machine Learning Feature専用のリポジトリが登場。SageMaker Feature Store #reinvent

2020.12.02

せーのでございます。

現在AWS re:InventではAndy Jassyのキーノートが行われています。

[随時更新] AWS re:Invent 2020 Keynote で発表された新サービスまとめ #reinvent | Developers.IO

ご機嫌いかがでしょうか、豊崎です。 今年もre:Invent 2020 キーノートではたくさんの新サービス/新機能が発表されるものと思います。 本投稿では、AWS re:Invent 2020のキーノートで発表された新サービスの記事をまとめます。 AWS re:Invent 2020では以下5つのキーノートが計画されています。 12/2: Andy Jassy Keynote 12/4: AWS Partner Keynote 12/9: Machine Learning Keynote 12/11: Infrastructure Keynote 12/16: Werner Vogels Keynote キーノート前に1つ大きな発表がありました。新たなEC2のインスタンス、Amazon EC2 Mac Instances が発表されました!実態としてはAWS Nitro Systemと連携したMac miniだそうです。起動には占有インスタンスが必要となります。 D3 / D3en Dense Storage Instances [詳細は別途Update] EC2 M5zn Instances - Fastest Intel

そこでSageMaker系で立て続けに新サービスが登場しましたので、速報でお知らせいたします。

SageMaker Feature Store

Amazon SageMaker Feature Store for machine learning (ML) - Amazon Web Services

A fully managed repository for machine learning features Amazon SageMaker Feature Store is a fully managed, purpose-built repository to store, update, retrieve, and share machine learning (ML) features. Features are the attributes or properties models use during training and inference to make predictions.

SageMaker Feature Storeは文字通り「Feature」を管理するリポジトリになります。機械学習における「Feature」とは「特徴」「特徴量」と約される事が多いのですが、学習や推論に必要なデータの特性のことを指します。例えば小売店などで毎日の天気、気温、曜日などを元に購買量を予測するような機械学習モデルを作るとします。この場合のFeature、特徴は「天気」「気温」「曜日」となります。

機械学習においてこの「Feature」は非常に重要で、学習時と推論時には一貫性のある特徴量が検出されなくてはいけないですし、学習したいモデルによって使う特徴は変わりますので、その時その時で使いたい特徴量がすぐに取り出せると非常に便利です。

そこで、このFeatureに名前をつけ、管理し、自由に扱えるようにするサービスが「SageMaker Feature Store」です。

データ取り込み機能

ストリーミングAPIを通じてビデオ、音声、音楽などのデータをキャプチャすることができます。またSageMaker Data Wranglerと連携して、前処理が終わったデータをそのまま取り込むこともできます。

タグ付け、インデックス

取り込んだFeatureにタグ付けしたりインデックスをつけたりして、簡単に検索できます。

定義の標準化

例えばcmとmm、摂氏と華氏、日付のフォーマットYYYY-MM-DDとYYYY/MM/DD、のような細かい定義の違いによる学習上の不具合がないように、明確な定義付けができます。

まとめ

データを異なるモデルに再利用したりする場合に、どのようなデータがどういうくくりで使われているのか、というのは意外に迷うところです。このような特徴量にフォーカスしたデータ管理ができると非常に便利ですね。