[速報]AWS Glue Data Quality(プレビュー)が発表されました! #reinvent

AWS re:Invent2022で発表された、AWS Glue Data Qualityの紹介です。この機能により、データレイクに保存されているデータの品質検査が容易になりました。
2022.12.01

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんにちは、八木です。本日のAWS re:Inventで、新機能AWS Glue Data Qualityが発表されました。

AWS Glue Data Qualityとは

AWS Glue Data Qualityはデータレイクに保存されるデータの品質検査を行う機能です。

データレイクにはさまざまなデータが保存されますが、データソースに変更が加わったり、処理が変更されると、データレイクに保存されるデータが変わる可能性があります。今までは、データレイクのデータが意図したものになっているか、品質管理を行うための処理を自前で実装する必要がありました。
例えば「特定カラムが含まれているか」や「カラムに含まれる値の範囲」、「値がプライマリーキーとして利用できるか」や「ユニークな値」などの判定です。
Glue Data Qualityを利用することで、これらの処理をマネージドに実行することが可能になりました。

実行は非常に簡単で、データのチェック内容(ルール)を規定した「ルールセット」を作成し、Glueのテーブルに対してタスクを実行することで、データレイクに保存されているデータの品質を検査してくれます。チェック可能な内容については公式ドキュメントをご参照ください。
また、推奨ルールセットという、ルールセットを自動で作成してくれる機能もあります。作成されたルールセットを編集し、目的に合ったルールセットにカスタマイズすることも可能です。

結果の画面から、何のルールが失敗したかを確認することができます。

さらに、ELTジョブの中で利用することも可能です。

利用可能リージョン

既にマネジメントコンソールからプレビュー版が利用可能になっています。
以下のリージョンで利用可能です。

  • バージニア北部(us-east-1)
  • オハイオ(us-east-2)
  • オレゴン(us-west-1)
  • 東京(ap-northeast-1)
  • アイルランド(eu-west-1)

制約

  • データソースは現在S3のみが利用可能です。
  • ELTジョブで利用する場合、Glue3.0のみ対応しています。先日Glue4.0が発表されましたが、こちらには対応していません。
  • ルールはネストされたデータや、リスト形式のデータには対応していません。

料金

Glue Jobなどと同様に、消費されたDPU分の課金が行われます。

まとめ

データレイクに保存されているデータの品質検査をマネージドで行える機能、AWS Glue Data Qualityが発表されました。テキストでルールを作成し、サーバレスでデータの検査が可能です。また、ルールを自動作成する機能もあるため、より手軽に始められるようになっています。

GAが待ち遠しい機能がまた1つ増えました!
以上、データアナリティクス事業本部八木でした!

参考リンク

AWS Glue Data Quality (preview) - AWS Glue
Join the Preview – AWS Glue Data Quality | AWS News Blog