[Python機械学習勉強会 in 新潟 #17][資料公開]AWS Glue Data Quality(プレビュー)の機械学習システムにおける活用を考えてみました

2023.02.13

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

データアナリティクス事業本部の鈴木です。

2月12日 (日) に開催された「Python機械学習勉強会 in 新潟 #17」にて、AWS Glue Data Quality(プレビュー)の機械学習システムにおける活用について発表したので資料をご共有します。

ポイントのご紹介

Amazon Web Services ブログで公開されている『Amazon SageMaker Model Monitor を活用したデータドリフト検知の解説』では、Deequを使ったデータドリフト検知の例が言及されていました。Deequを元としたAWS Glue Data Qualityでは、Deequ用のリソースを頑張って用意しなくても、いよいよ誰でもサーバーレスにAWS上のデータに対してデータ品質チェックが実践できるので、機械学習の用途でどのように使えそうか調べてみました。

ブログではデータドリフトの検知方法の3つ紹介がありますが、AWS Glue Data Qualityでは基本的な統計情報を使ったものが中心になりそうです。

データドリフトの検知

今回の発表ではAWS Glueコンソールからの利用を紹介していますが、コンソールからはざっくり3ステップで実行ができました。

AWS Glue Data Qualityの利用イメージ

ルールは発表時点では18ありましたが、特に機械学習用途で使えそうなものを7つピックアップしてみました。

特に機械学習用途で活躍しそうなルール

最後に

AWS Glue Data Quality(プレビュー)のデータドリフト検知への利用について調査した発表資料をご紹介しました。ご参考になれば幸いです。