【Informatica】CDGCのコスト(IPU)体系について情報をまとめてみた
はじめに
データ事業本部の川中子(かわなご)です。
先日の会議中、初対面の方から「か、かわなかこさん(小声)」と自信無さげに呼ばれました。
たしか人生で52,396回目だったと思います。
いつも初対面の方に名前を呼ばれるときは、逆に申し訳ない気持ちになります。
さて今回は、Informaticaで提供されているデータカタログサービスである、
Cloud Data Governance and Catalog(以降CDGC) のコストについて見ていきます。
コスト感について理解して、導入検討時のモヤモヤを解消しましょう。
CDGCのコスト体系
ドキュメントを見てみる
まずは何より公式ドキュメント、ということでドキュメントを見てみます。
Organization Administration > IPU meters
IPU meters
の項目を見てみると、以下のような記載があります。
Meter | Scalar value |
---|---|
Data Governance and Catalog | Compute Units |
Data Governance and Catalog -10,000 records per scalar unit for governance records -100,000 records per scalar unit for catalog records |
Records Stored |
CDGCのサービス利用においては、ジョブ実行によるCompute Units
と、
データの保存によるRecords Stored
の2種類のScalarによってIPUが計算されます。
Records Stored
においては、catalog records
は10,000レコード、
governance records
は100,000レコードごとに1IPUとして計算します。
Compute Unitsとは
ドキュメントのIPU scalars
の項目を見ると、以下のように記載があります。
Organization Administration > IPU scalars
Scalar value | Unit of measure | Description |
---|---|---|
Compute Units | Hour | Processing capacity used or consumed. |
Compute Units
とは、Informatica上で何かしらのジョブを実行した際に、
そのジョブが使用するコンピューティングリソースのことです。
具体的にはScanner Execution
という名前でメータリングには表示されます。
CDGC関連のIPU消費について説明している動画の中では、以下のように説明しています。
Scanner Execution:
Scanner is invoked through configuration of a scanner for a Catalog source in the Metadata Command Center. Execution of the scanner will consume number of Compute Hours depending upon the configuration selection of metadata extraction, data profiling, data quality, data classification, relationship discovery,
glossary association and connection assignment.
(IPU Calculation and Metering - CDGC, CDMP and Claire GPT)
メタデータ抽出やデータプロファイリング、データクオリティなどの実行時に計算されるようです。
なおIPU消費は実行環境により、以下のように分類されています。
実行環境 | Metric | IPU Per Metric Unit |
---|---|---|
Secure Agent / ホステッドエージェント | hour | 0.32 |
サーバーレスランタイム | hour | 0.52 |
Informatica Cloud and Product Description Schedule
Records Storedとは
こちらもドキュメントから詳細を確認してみます。
Scalar value | Unit of measure | Description |
---|---|---|
Records Stored | Record | Number of records stored. The value resets at the end of the billing period, rather than resetting daily. |
Records Stored
とは、メタデータなどの保存量に対して請求されるScalarです。
メータリングでは保存されているレコード数
という分類名で表示されます。
以下のドキュメントを見ると、CDGC関連のRecords Stored
には2種類あることが分かります。
Organization Administration > IPU meters
- Data Governance and Catalog(Records Stored)
- 10,000 records per scalar unit for governance records
- 100,000 records per scalar unit for catalog records
具体的なIPU消費については以下のように、500,000レコードを境に単位あたりIPUが変わります。
サービス | Metric | IPU Per Metric Unit |
---|---|---|
Catalog | Per One Hundred Thousand Assets | 0.83 for the first 500,000 Daily Assets Stored 0.067 for > 500,000 Daily Assets Stored |
Governance | Per Thousand Assets | 0.95 |
Informatica Cloud and Product Description Schedule
IPUコストの概算
公式で紹介されているモデルケースを例に、IPUコストの計算を試してみましょう。
参考にしているのはこちらの動画の内容となります。
■想定ケースの確認
動画で紹介されている想定のケースは以下になります。
Day 1:
Configured 1 metadata source scanner to run monthly. Job completed overnight and ingested 40,000 metadata records
Day 8:
Configured 2 metadata source scanner to run weekly. Job completed overnight and ingested 60,000 metadata records each. Weekly run ingests additional 20,000 records for each run
- 想定ケース1日目
- 月次で動くメタデータスキャンを設定 した
- 翌日ジョブが完了し、4万件のメタデータレコードが抽出 された
- 想定ケース8日目
- 新たに 週次で動くメタデータスキャンを2つ 設定した
- 翌日ジョブの初回実行が完了し、それぞれ6万件のメタデータレコードが抽出 された
- 以降の週次実行において、それぞれ2万件のメタデータレコードが抽出 された
■カタログレコードの計算
想定ケースにおけるカタログレコードの数を週ごとに計算してみましょう。
Count of records day wise:
Day 2 - 8 = 40,000
Day 9 -15 = 160,000 (40000 CS1 + 60000 CS2 + 60000 CS3)
Day 16 - 22 = 200000 (40000 CS1 + 80000 CS2 + 80000 CS3)
Day 23 - 29 = 240,000 (40000 CS1 + 100000 CS2 + 100000 CS3)
Day 30 - 31 = 280,000 (40000 CS1 + 120000 CS2 + 120000 CS3)
1週目 は初期に設定されたスキャンの レコード4万件 が保存されており、
2週目 では追加設定された2つのスキャンにより それぞれ6万件 が追加、
以降は追加された2つのスキャンで、 それぞれ2万件ずつ追加 されたという流れになっています。
カタログレコードのIPU計算は、その日毎に格納されているレコードで計算 されますので、
それぞれ7日間(Day30-31は2日間)でかけると、最終的なコスト対象のレコード数が算出できます。
Aggregated catalog records on Day 31 of billing cycle :
(740000) + (7160000) + (7200000) + (7240000) + (2*280000)
280,000 + 1,120,000 + 1,400,000 + 1,680,000 + 560,000
5,040,000 records
前述の通りカタログレコードについては段階的にIPUを計算する必要があります。
50万件までは0.83IPU、それ以上は0.067IPUで計算してみます。
IPU Calculation:
(500,000/100,000) * 0.83 + (4,540,000/100,000) * 0.067
4.15 + 3.042 = 7.192 IPUS
今回のモデルケースの 1ヶ月の消費IPUは7.192IPU となりました。
なんとなく計算のイメージは湧いたでしょうか。
以下にもガバナンスレコードを含むIPU計算の参考になる記事を置いておきます。
【参考ページ】
FAQ: CDGC にカタログ レコードを保存する場合、IPU はどのように計算されますか?
FAQ: CDGC の IPU メータリング タブに表示されるガバナンス レコードにはどのような資産タイプが含まれますか?
その他のIPU消費について
ここまでドキュメントの記載を見てきましたが、動画では他のIPUも紹介されていました。
Metadata Record Consumption
こちらは CDGCのAPIエンドポイントを使用するアプリケーションなどによって発生 するコストです。
具体的にはアセットの検索やエクスポート、またはアセットの作成・更新・削除などの操作を含みます。
- Metric:1,000 API呼び出しあたり
- Tier:
- 0 - 100,000 calls:0.000001 IPU ※ほぼFREE
- 100,000 calls <=:0.32 IPU
CLAIRE GPT Query
こちらはInformatica社が提供する 生成AIを活用したのデータ管理ツール で、
対話形式でデータセットやメタデータ探索の指示を投げることができます。
- Metric:1,000 クエリあたり
- IPU:50/Metric
こちらは特にIPUの階層はなく、1,000クエリごとに50IPUの消費となります。
コスト最適化のベストプラクティス
IPUの消費量を最適化するにはどうしたらよいか、という趣旨の記事があったので最後に紹介します。
FAQ's on IPU Usage Optimization in CDGC
上記ページの内容をまとめると以下のようになります。
- 不要なレコード は増やさない、見つけたら削除する
- メータリング機能を使用して 利用状況を常に監視 する
- 適切な スキャン範囲や頻度 を設定する
基本IPUはスキャン実行とデータの保存にかかりますので、
不要なスキャンやデータ保持を見つけ、減らしていくしかないということですね。
メータリング機能によってIPUを監視する仕組みはとても重要になりそうです。
さいごに
今回はCDGCのコスト体系について見てきました。
CDGCのGUIはとても見やすく、Market Placeなどのサービスと連携させることで、
比較的少ない労力で組織内のデータ民主化を実現することが可能になります。
便利な機能を使っていくうえでコスト要因が不明確なままなのは判断を鈍らせるので、
今回の記事が少しでもCDGC導入時の参考になれば幸いです。
最後まで閲覧頂き、ありがとうございました。