[新機能]AWS Glue Data QualityがGAになりました!

2023.06.08

データアナリティクス事業本部の鈴木です。

待望のAWS Glue Data Qualityの一般提供が開始されました!

re:invent2022で発表された機能となります。AWS Glueが利用可能な全てのリージョンが対象です。

AWS Big Data Blogでもブログ記事が公開されていました。

AWS Glue Data Qualityについて

AWS Glueのネイティブなデータ品質の管理機能です。AWSの開発したOSSであるDeequによるデータ品質チェックを、AWS Glueで非常に簡単に実行できる機能となります。

AWS Glueコンソールからは個別のテーブルの画面から利用でき、誰でも簡単に品質ルールが作成できるDQDL(Data Quality Definition Language)という独自の言語でルールを定義し、品質チェックが実行できます。

DevelopresIOでこれまでご紹介した記事

DevelopersIOではプレビュー期間中に、AWS Glue Studioおよびデータカタログから実行する方法をご紹介しました。

re:Invent2022の紹介セッションレポートは以下になります。

ユースケースとして機械学習システムにおける活用例についても考察してみました。利用例として参考になりましたら幸いです。

DevelopresIO以外の情報

アナウンスと同時に、AWS Big Data Blogにて複数の記事が公開されていたのでご紹介です。

初めて使う際の利用例から、品質チェック時のアラート通知およびスコアリング結果をより分かりやすく可視化する構成例まで紹介されており、非常に参考になります。ご興味がある方はぜひご確認頂ければと思います。

コンソールからアクセスしてみた

前回プレビュー版で触ってから少し間が空いていたので、改めてコンソールからアクセスしてみました。少しUIに変更があり、さらに使いやすくなっている印象です。

Glueデータカタログからは、それぞれのテーブルの画面のData qualityタブから確認できます。

現時点で以下が確認できました。

  • ガイドへのリンク
  • 過去の実行結果の可視化
  • ルールセットの一覧と直近の結果の詳細

Data qualityタブ1

Data qualityタブ2

ページ下部のData qualityの箇所からは、Create data quality rulesボタンを押すとエディタが現れました。とても使いやすそうです。

ルールセットのエディタ1

ルールセットのエディタ2

既存のルールセットの定義や履歴を確認することも可能です。

既存ルールセットの確認1

ルールの定義確認

実行履歴の確認

ページ上部のRun historyからは、このテーブルに関するルールセットを横断して、期間で絞った履歴を確認できました。

実行履歴

実行履歴の一覧

最後に

AWS Glue Data Qualityが一般提供開始となったので、関連する情報と、本日時点でのGlueデータカタログから確認できるコンソールの概要についてご紹介しました。

データ品質は、データ分析基盤をはじめとしたデータに関するシステムで、今後非常に重要な機能となっていきます。大規模なデータに対してもとても簡単にデータ品質のチェックや管理が行えるAWS Glue Data QualityのGAは、非常に心強く嬉しいお知らせですね!

DevelopersIOでも引き続き検証内容や使用例をご紹介していき、AWS Glue Data Qualityやこの機能を使用したシステム開発をご支援していければと思います。