Alteryx を使用し二つのデータセットのスキーマを比較する方法

2023.10.06

(Click here for English)

はじめに:

開発者は既存のワークフローやダッシュボードを新データセットに対してテストする際に、データセットの異なるバージョンを比較する必要があります。例えば稼働中のデータセットと UAT の比較が必要な際になど。データ処理および視覚化レポートを処理する場合、データセットのスキーマの違いを特定することが重要です。Alteryx を使用すると、対象となる 2つのデータセット間のスキーマの違い (または類似点) を見つけるのが非常に簡単になります。

方法:

以下に示すように、異なるスキーマを持つ 2 つのデータセットから始めましょう。

一目で列名が一致していないことがわかります。ただし、大規模なデータセットを比較する場合、一貫性を保つために各列名を手動で比較することは現実的ではありません。そこでAlteryxが役に立ちます。Alteryx でデータセットを接続し、サンプリングツールを使用してデータセットごとに 1 行のデータだけを取り込みます。

次に、デフォルト構成で転置ツールに接続し、すべての列を転置します。最後に、結合ツールを使用して、以下に示すように「Name」フィールドで結合するように設定します。

一致したフィールドは、一致しないフィールドから区別できます。 したがって、2 つのデータセットのスキーマを比較し、必要に応じて変更できます。 この手法は、列名で大文字と小文字が区別される場合や軽微なタイプミスがある場合に特に役立ちます。

最後に:

Alteryx を使用すると、大規模なデータセットのスキーマを簡単に比較できます。