データ分析基盤「CSアナリティクス」でジョブと構成要素のリネージ情報が辿れるようになりました。#CSアナリティクス

2022.07.19

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

先日、クラスメソッドが提供するデータ分析基盤サービス「CSアナリティクス」(以下CSA)のプロダクト「Job Management Console」(以下CSA JMC)において、新しいバージョン「v5.10.0」をリリースしました。

当エントリでは、CSA JMC v5.10.0における新機能「ジョブのリネージ情報対応」「構成要素のリネージ情報対応」について紹介します。

概要

CSA JMCでは、データウェアハウスに対してSQLやプログラムを実行するジョブを作成し、スケジュール実行するための各種機能を取り揃えています。その他基本的な解説については下記エントリをご参照ください。

CSA JMCでは、処理を実行する際の「概念」として以下2つの種類があります。

  • 構成要素:データに対して処理を行う詳細な設定を定義したもの。以下4種類が利用可能です。
    • 構成要素(データ連携):データウェアハウスにデータを投入する処理
    • 構成要素(プログラム):Pythonプログラムを通じてデータを加工し、分析に必要な情報を整える処理
    • 構成要素(SQL):SQLを通じてデータを加工し、分析に必要な情報を整える処理
    • 構成要素(データ出力):クラウドストレージ環境へのデータエクスポート処理
  • ジョブ
    • 構成要素を編成してまとめたもの。スケジュールに基づいて実行される処理の単位はこの「ジョブ」となる
    • 任意のジョブから、他のジョブを指定して実行する事も可能

CSA JMCではこのように構成要素やジョブを実行可能ですが、御利用頂いているお客様から「このジョブや構成要素は、現時点でどのジョブから利用されているのか。速やかに状況を把握したい。」という御要望を頂き、今回の機能リリースに至りました。

ジョブのリネージ情報表示

ここでのリネージ情報とは「ジョブや構成要素がどこのジョブから呼び出されているかを表すもの」を意味します。例えば以下のように2つジョブを作成したとします。

  • 「構成要素をまとめたジョブ(ジョブA)」
  • 「そのジョブを呼び出す親ジョブ(ジョブAを実行する親ジョブ)」

この場合、「ジョブA」が「ジョブAを実行する親ジョブ」から呼ばれる形となります。今回はこの『「ジョブA」が「ジョブAを実行する親ジョブ」から呼ばれている』ということがリネージ情報として知りたい情報です。

「ジョブA」の詳細画面に遷移し、[ジョブリネージ情報]タブを見てみると、以下のように知りたい情報が一覧形式で確認出来ました。

今回の機能では、ジョブを実行するジョブが複数存在する場合、一覧でも該当する情報が複数件表示されます。ジョブ名をクリックすると当該ジョブの画面に移動出来ます。

構成要素のリネージ情報表示

「構成要素リネージ情報」では「この構成要素がどのジョブから実行されているか」を確認出来ます。ここでは、Pythonプログラムを指定する形でジョブを用意しました。

対象となる構成要素詳細画面に遷移すると、以下のように構成要素におけるリネージ情報を確認出来ました。ジョブリネージ情報同様、こちらもジョブ名をクリックすると該当ジョブの画面に遷移します。

ちなみに、構成要素のリネージ情報についてはジョブ詳細画面で以下4種類全てを辿ることが可能です。

  • 構成要素(データ連携)
  • 構成要素(プログラム)
  • 構成要素(SQL)
  • 構成要素(データ出力)

まとめ

今回リリースされた「ジョブのリネージ情報」「構成要素のリネージ情報」の機能を使うことで、該当項目がどこから利用されているか簡単に辿れるようになります。 ジョブや構成要素を変更した際に影響調査等が大幅に捗り、調査時間も減らせることが期待できるこの機能、是非御活用ください!