
【レポート】セッション「An Introduction to Data Lineage for Alteryx Server(Alteryx Serverのためのデータリネージの紹介)」– Alteryx Inspire 2025 #AlteryxInspire
こんにちは、まつおかです。
2025年5月12日(月)~5月15日(木)まで、アメリカ・ラスベガスで開催されたAlteryxの年次カンファレンスイベント「Inspire 2025」に現地参加してきました。
当エントリではイベント3日目に行われたセッション「An Introduction to Data Lineage for Alteryx Server(Alteryx Serverのためのデータリネージの紹介)」のレポートをお届けします。
セッション概要
当セッションの概要は以下のとおりです。
概要
In today’s data-driven world, understanding the origins, transformations, and dependencies of your data helps tackle costly data errors. Learn how Alteryx is empowering your organization with a new Data Lineage service.
今日のデータ駆動型の世界では、データの起源、変換、依存関係を理解することが、コストのかかるデータエラーに取り組む助けとなります。Alteryxが新しいデータリネージサービスで組織にどのように力を与えているかを学びましょう。
登壇者
- Laine Caruzca 氏
- Sr. Product Manager, Server at Alteryx
- Marty Moravec 氏
- Lead Software Engineer at Alteryx
セッションレポート
アジェンダ
- A Data Linage story
- データリネージとはなにか
- どのようにみなさんや組織の役に立つのか
- どんな課題を解決できるのか
- Our plans
- どのようにデータリネージを捉えているのか
- Alteryxやエコシステムの中でどのように実装を進めているのか
- 戦略やロードマップ
- デモ
- How you can get involved
- 関与の方法、テストなどへの参加方法
データリネージが解決する課題
まずはひとつのストーリーから始めたいと思います。
- BIアナリスト「マヤ」
- シカゴのヘルスケア企業で働くBIアナリスト
- Alteryxを使用しデータ加工、Tableauで可視化、Snowflakeでデータ保存・処理
月初めの月曜日、定例レポート(患者の入院率、満足度、予約件数、収益など)が生成される日に問題が発生しました。
- 入院率が80%も高く出ていることに気づき・・・
- テーブルファイルの中に原因があるのか?
- 誰かが間違った計算式を使ったのか?
- ワークフロー、あるいはデータベースの変更?
これは根本的な課題として 「データソースから利用に至るまで、どのような過程を経たのかを可視化できない」 という点があり、様々な業種・職種に共通の課題です。
ビジネス上の課題例
実際にお客様から伺ったビジネス上の課題例
- 銀行のコンプライアンス担当者がGDPR(General Data Protection Regulation:一般データ保護規則)に準拠したレポートを作成しようとしている。顧客データがどのように流れ、誰がどのように扱っているのかを把握する必要がある。
- マーケティングアナリストがキャンペーンの効果を測定しているが、同じメトリクスでも異なるダッシュボードで数値が違っている。
- データエンジニアがオンプレミスからSnowflakeへの移行を進めているが、どの資産が依存しているのか、移行による影響を把握したい。
- データアーキテクトが古いデータソースを整理したいが、それらがまだ使われているかどうかの可視性がない。
データリネージとは何か?どう役立つのか?
- データリネージは、データの流れを可視化したもの
- 各データ資産感の依存関係
- 上流・下流のつながり
- 変換プロセス
- この可視化により以下の効果が期待できます
- データの問題の発生源の特定
- 変更による影響範囲の予測
- コンプライアンス要求への対応
Alteryxでのデータリネージの実現
-
データリネージアプローチ
- 顧客の多くはデータパイプライン、ログ、データオブザーバビリティプラットフォームを活用
- すべての情報を一か所に集約し「何が起きているか」の真実を一元化することが目的
- Alteryxも他のシステムと連携可能な仕組みを構築していく必要がある
- Server上でジョブが実行されたタイミングで情報収集できるよう設計
- OpenLineage
- オープンソースプラットフォーム
- データリネージの業界推奨標準で、様々なツールとの互換性がある
- Alteryxの内部的な言語や構造を業界標準の形式に変換する仕組みを実現
-
ロールアウト戦略
- OpenLineageを使ってイベントを生成する仕組みを構築中
- 生成されたイベントは「One Platform」のコントロールプレーンに組み込む予定
- コントロールプレーンに構築する理由
- 今後、Alteryxの他製品(Server、Cloud Execution、Desktopなど)へ展開するため
- 一度コントロールプレーンに作れば、全体への拡張が容易になる
-
プロダクトロードマップ
- 現在はServer上で動くアセットのリネージ情報の収集から開始
- 最初の統合対象は、OpenLineage対応のカタログ(Marquezなど)との連携
- 今後はワークフローリネージ(ジョブ全体の入力・出力構造)に対応予定
- さらにサービスアカウントの統合により、Alteryx Serverとクラウドサービスの接続性強化
- 将来的には、マクロや追加接続タイプにも対応予定
- 最終的には、データレベル・列レベルのリネージにも対応していく予定
ライブデモ:Marquezによる可視化
今回は「Marquez」というOpenLineageの開発元が作成したオープンソースのカタログを使用します。
-
Alteryx Server上のジョブを実行すると、Marquezにそのジョブと関係するデータセットを自動表示
-
ジョブIDをクリックすると、データの流れ(リネージ)が可視化され、各データソース・ジョブの関係をグラフィカルに表示
- 各ノードにはメタデータ(テーブル名、スキーマ、実行時間、レコード数など)が付与
- 列レベルのリネージにも対応予定で、たとえば「売上合計」という列が、どの列から生成されたかの追跡が可能
-
「Event」タブでは、Alteryx Server上で実行された全てのジョブの履歴(実行開始・終了時間など)を見ることが可能
機能を利用するための準備
-
AlteryxのEnterprise契約
Alteryx ServerはEnterpriseティアのみで提供されているため、リネージ機能もその範囲内での提供となります。
-
既存のデータカタログやガバナンス体制の有無
すでにカタログを使用している、あるいは導入を検討している企業では、今回の機能がその一環として機能する可能性があります。
-
Serverの最新版へのアップグレード
この機能は最新版にのみ搭載されます。
セキュリティに関するよくある質問
ライン情報を「コントロールプレーン」に送信することについて、お客様からよく受ける質問にお答えします。
- どのようなデータが送られるのか?
- 送信されるのはメタデータのみ(保存はされない)
- ワークフロー名、アプリケーションID、実行時間、ジョブステータス、データソース名など
- 保存されるのはデータカタログとの接続に必要な「接続情報」のみ
- ホスト名、ポート番号、認証方式、トークンなど
- 送信データはTLS暗号化
- 送信されるのはメタデータのみ(保存はされない)
- 送信データを選択できるか?
- 現在のバージョンで収集されるリネージ情報はデータソースレベルのみ
- データソースレベルの情報を収集したくない場合は機能をオフにすればよい
- 初期設定はオフの状態
- 最新のServerでは機能を有効化することが可能
- コントロールプレーンにログインして構成情報(接続先の情報など)を入力
- Alteryxのシステム設定(オートシステム設定)を通じリネージサービスとの接続を構成する必要がある
- 今後は収集するリネージのレベルをより細かくカスタマイズできる機能も提供予定
セッション最後のQ&A
-
データカタログでファイルや列名を検索し、使用しているジョブIDなどを特定し影響範囲を把握することはできますか?
はい、既存の資産と一致するものは自動的に紐付きます。新規のファイルは「部分的な資産(partial asset)」として扱われ、他の資産との関連付けはされません。
-
入力と出力でフィールドが変換された場合のリネージも取得できますか?
はい、OpenLineageは列レベルのリネージ(column-level lineage)もサポートしています。たとえば列を掛け算して「売上合計」という列になった場合も、どの入力列から派生したのかも確認できます。
-
Serverとのやり取りを監視するアプリケーションに制限がある場合、Marquezのようなモデルはどう実装すればよいですか?
Marquezはローカル環境内に完全に設置して運用することが可能です。リネージ情報が存在する場所や、Marquezのようなオンプレミスツールは社内ネットワーク内でも問題ありません。
Collibraも同様で、彼らは「Edge Site」や「Harvester」といったローカル実行型のモジュールを用意しており、それを使って社内ネットワークから最小限のメタデータだけを送信するというモデルになっています。 -
全てのワークフローが対象になるのですか?
現在の仕様では、Alteryx Server上で実行されるすべてのワークフローに対してこの機能が動作します。
将来的にはフィルタリング設定が可能な機能を提供することも検討していますが、プライベートプレビュー版では「すべての実行」が対象となります。 -
資産の所有者情報なども取得できますか?
現在、管理者情報など資産の管理についてはデータカタログ側で管理する前提になっています。
OpenLineageの仕様には、所有者情報(who ran the workflow)やタグ、リンク情報なども含められるようになっていますので、技術的には可能です。あとはお客様のニーズに応じて、どの情報をどこまで送信・表示するかを選択できる形にしていきたいと考えています。
さいごに
データ活用が進む中で、「そのデータがどこから来たのか」「どのように変換されて」「最終的にどこに影響を与えるのか」といった点は、ますます重要な課題になってくると感じます。
特に、ガバナンスの観点からもこうした可視化のニーズは今後さらに高まっていくと思います。
リネージ機能の正式リリース、楽しみにしています!