CSA Data Uploaderが「既存情報から日付・タイムスタンプ列を作成」「混在する日付・タイムスタンプ列のデータ書式を統一」に対応しました

2021.10.18

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

はじめに

クラスメソッドが展開しているデータ統合基盤サービス『CSアナリティクス』(以降"CSA")のプロダクト群の1つ、『Data Uploader』に

  • 既存の情報から日付・タイムスタンプの列を追加作成する機能
  • 混在する日付・タイムスタンプ列の書式を統一する機能

を追加しました。

こちらの機能は『Data Uploader』の変換処理の一部となります。変換処理については、以下の記事などを参考にしてください

クラウドストレージへのファイルアップロード&ETLツール『Data Uploader』の変換処理で出来ること(列操作編) #データ統合基盤 #CSアナリティクス

今回はこれらの機能について紹介致します。

既存列を結合(日付作成)

まずは「既存列を結合(日付作成)」についてです。こちらは既にある列の値を結合して日付列を追加する機能となります。

入力について

変換処理となるので、「ジョブ詳細」画面にて「追加」ボタンを押下し、変換種別で「既存列を結合(日付作成)」を選択します。

「既存列を結合(日付作成)」を選択したら、日付として出力する列名と日付のフォーマット、年月日のそれぞれの値として使用する列を選択します。

画面の入力項目の内容は以下の通りです。

  • 日付列名 : 新たに作る日付列の名称を入力します。
  • 日付フォーマット : 新たに作る日付列のフォーマットを選択します。
  • 年 : 新たに作る日付列の年を指定します。
    • 列選択 : 「列選択」選択した場合、既存データのどの列を使うかを選択します。
    • 固定値 : 「固定値」を選択した場合は年となる値を入力します。
  • 月 : 新たに作る日付列の月を指定します。「列選択」「固定値」については年と同様です。
  • 日 : 新たに作る日付列の日を指定します。「列選択」「固定値」については年と同様です。

今回は日付列名として「concat_date」、フォーマットは「YYYY-MM-DD」、年と月にそれぞれ既存の列を選択し、日は固定値として「01」を出すよう入力しました。

変換結果について

変換前のデータと上記で入力した変換処理の結果についてはジョブ詳細画面から参照することができます。

ジョブ詳細画面の「データ表示」ボタンを押下し、それぞれを見てみます。

変換処理前データ

変換処理後データ

変換処理後には、入力した列名とフォーマットの列が追加され、値としては年と月にそれぞれ既存の列の値を出力し、日は固定値「01」が出力されることが分かるかと思います。

既存列を結合(タイムスタンプ作成)

次に「既存列を結合(タイムスタンプ作成)」についてです。先の「既存列を結合(日付作成)」と同じような機能ですが、こちらはタイムスタンプ列を追加する機能となります。

入力について

こちらも「既存列を結合(日付作成)」と同様に「ジョブ詳細」画面にて「追加」ボタンを押下し、変換種別で「既存列を結合(タイムスタンプ作成)」を選択します。

「既存列を結合(タイムスタンプ作成)」を選択したら、タイムスタンプとして出力する列名とフォーマット、年月日時分秒のそれぞれの値として使用する列を選択します。

画面の入力項目の内容は「既存列を結合(日付作成)」と同様です。 今回は列名として「concat_datetime」、フォーマットは「YYYY-MM-DD HH:MI:SS」、年・月・日・時にそれぞれ既存の列を選択し、分・秒は固定値として「00」を出すよう入力しました。

変換結果について

変換前のデータと上記で入力した変換処理の結果についてはジョブ詳細画面から参照することができます。「既存列を結合(日付作成)」と同様に、ジョブ詳細画面の「データ表示」ボタンを押下し、それぞれを見てみます。

変換処理前データ

変換処理後データ

変換処理後には、入力した列名とフォーマットの列が追加され、値としては年・月・日・時にそれぞれ既存の列の値を出力し、分・秒は固定値「00」が出力されることが分かるかと思います。

日付・タイムスタンプ書式統一

最後の「日付・タイムスタンプ書式統一」についてです。こちらは上述の「既存列を結合(日付作成)」「既存列を結合(タイムスタンプ作成)」とは異なり、既存の日付やタイムスタンプの列の書式を統一するものとなります。

入力について

変換処理となるので、「ジョブ詳細」画面にて「追加」ボタンを押下し、変換種別で「日付・タイムスタンプ書式統一」を選択します。

「日付・タイムスタンプ書式統一」を選択したら、統一して出力したいフォーマット、統一する列と現状のフォーマットをそれぞれ選択します。

画面の入力・表示項目の内容は以下の通りです。

  • 出力フォーマット : 統一して出力したいフォーマットを選択します。
  • 列名 : 既存データの列名が表示されます。(ここについては選択することはできません)
  • 現在のフォーマット : フォーマットを変換したい列の場合、現状のフォーマットを選択します。初期値は「無変換」であり、この場合は変換されません。

今回は統一して出力するフォーマットとして「YYYY/MM/DD HH:MI:SS」を選択し、統一対象の列として全ての列(「col_a」「col_b」「col_c」)を選択しました。

変換結果について

変換前のデータと上記で入力した変換処理の結果についてはジョブ詳細画面から参照することができます。「既存列を結合(日付作成)」と同様に、ジョブ詳細画面の「データ表示」ボタンを押下し、それぞれを見てみます。

変換処理前データ

変換処理後データ

全ての列が指定したフォーマットに統一されていることが分かるかと思います。

まとめ

CSA Data Uploaderで日付・タイムスタンプの列を追加する機能、書式を統一する機能の紹介でした。CSA Data Uploaderは1ヶ月間のトライアル利用が可能となっています。興味をお持ち頂いた方は是非無料版ダウンロードページからインストーラを入手頂き、お試し頂けますと幸いです。