DevelopersIO 2024 OSAKAに「データ品質管理の第一歩」というタイトルで登壇しました #devio2024
データ事業本部 インテグレーション部 機械学習チームの鈴木です。
「データ品質管理の第一歩」というタイトルでDevelopersIO 2024 OSAKAに登壇しましたので、資料を公開します。
登壇資料
以下のスライドになります。
ガイドブックは、以下の資料を参照しました。
ポイント
1. データ品質管理プロセスについて
データ提供者が実施するデータ品質管理プロセスについてご紹介しました。
2. データ品質特性について
ISO/IEC 25012の15の特性についてご紹介しました。
『データ連携基盤を通して提供されるデータの品質管理ガイドブック』では、これらの特性を基礎的品質特性と付加的品質特性に分けて、おのおのの評価方法が紹介されていたため、言及しました。
基礎的品質特性はバリデーションがどれだけできているかを確認する、付加的品質特性は対応するメタデータの網羅性を確認する、と具体的な評価方法が理解できました。
3. データ品質管理を実現するためのツールについて
以下を紹介しました。
- dbt
- Amazon DataZone
- AWS Glue Data Quality
- Informatica CDGC
特にDataZoneはGlue Data Qualityなどのデータ品質を取り込めるようになっており、ますますデータカタログとしても機能を増やしています。
また、Informatica CDGCについてもご紹介しました。こちらの製品については、DevelopersIO 2024でメンバーがご紹介していますので、興味があればご確認ください。
最後に
ガイドブックを中心にデータ品質管理のプロセスや枠組みについて学んだ内容のほか、直近でどんどんアップデートされているデータカタログ製品・データ品質向けツールをご紹介しました。
クラウドサービスなど触っているとついつい具体的なサービスの使い方を話してしまいがちですが、改めてデータ品質の特性や、評価プロセスについて学べました。
これからデータ品質管理を行う方はもちろん、データ提供者になる方はぜひ一読ください。