
「縦」のデータ品質と「横」のデータ品質
とーかみです。
データ活用を進めていく中で避けて通れないのが「データ品質」です。
品質の悪いデータ、例えばデータの値が間違っていたり不足していたりすると、データを使った活動の品質も下がってしまいます。
この記事ではデータ品質における、「縦」のデータ品質と「横」のデータ品質についてまとめます。
まとめ
「縦」のデータ品質は値やレコードに関する品質、
「横」のデータ品質はカラムやテーブルに関する品質です。
「縦」のデータ品質
「縦」のデータ品質は、テーブルに対する縦方向、つまり行の方向についての品質です。
一般に「データ品質」と呼ぶものは、今回の記事では「縦」のデータ品質に該当します。
具体的には以下のようなものがあります。
- データが入っているか
- 入っているデータは正しいか
- 間違った値が入っていないか
- 形式は期待する形になっているか(文字列と数値、コード値のフォーマット、ある値の範囲やリストに収まっているかなど)
- テーブル内の他のレコードとの整合性が取れているか
- 一意制約
- 他のテーブルのレコードとの整合性が取れているか
- 外部キー制約
- 鮮度、リアルタイム性
このような「縦」のデータ品質については、データを管理・加工するツールや製品(dbt の dbt test など)やデータ品質を確認したりレポートを作成できるツール(elementary や Great Expectations など)を用いてチェックできます。
「横」のデータ品質
「横」のデータ品質はカラムやテーブルに関する品質です。
あるテーブルにほしいデータが入っているカラムがあるかや、こんなデータを持つテーブルがあるかといった、「目的のためのデータが存在するか」という観点でのデータ品質です。
ある 1 つの目的・用途のために使うデータは 1 種類とは限りませんし、複数のデータを組み合わせた方がより目的に合った洞察や判断を行えます。
この「横」のデータ品質は、直接ツールでチェックすることはできません。
しかし、データカタログのようなツールやデータスチュワードのような役割(組織内の機能)をもとにどのようなデータがあるかを探しやすくすることができます。
それ以上のことは、データの取り揃えと目的を照らし合わせながら人間が判断することになります。
(AI によるサポートも期待できる分野です)
具体例:来週の気温を予測するためのデータ
「来週の気温を予測したい」という目的に対して、「縦」のデータ品質と「横」のデータ品質を考えてみましょう。
例えば以下のようなデータがあるとします。
日付 | 地点 | 最高気温 |
---|---|---|
2025/4/1 | A市 | 10.4 |
2025/4/1 | B市 | 11.4 |
2025/4/1 | C市D区 | 42.44 |
2025/4/2 | A市 | -13.8 |
2025/4/2 | C市D区 | 56.66 |
このデータに対して「縦」のデータ品質と「横」のデータ品質を考えてみると以下のようになります。
「縦」のデータ品質として考えること
- 日付「2025/4/2」の地点「A市」のデータは間違っていないか
- 日付「2025/4/2」の地点「B市」のデータが抜けている
- 地点「C市D区」のデータが「摂氏℃」ではなく「華氏°F」の単位になっているように見える
- 日付「2025/4/1」より前のデータが取得できないか
「横」のデータ品質として考えること
- 気圧、風速のような関連する気象データと組み合わせられないか
- 各地点の位置や標高といった地理データが取得できないか
- 実測値だけでなく天気図のようなデータをもとに複合的に予測できないか
まとめ(再)
「縦」のデータ品質は値やレコードに関する品質、
「横」のデータ品質はカラムやテーブルに関する品質です。
今回の記事のどちらにも分類されない「ほしいときにすぐにアクセスできるか」といった観点のデータ品質もあります。
何を品質とするか、その中でどれを優先するかは環境や目的によって変わるので、データ基盤の管理者、データを利用するビジネスユーザーなどの各ステークホルダーの視点で定義し、戦略を考えていきましょう。