【新機能】DatabricksのLakeflow Designerがパブリックプレビューとなったので試してみた

【新機能】DatabricksのLakeflow Designerがパブリックプレビューとなったので試してみた

2026.04.27

かわばたです。

2026年4月22日にLakeflow Designerがパブリックプレビューとなりました。

LakeFlow Designerは、コードを書かずにビジュアルキャンバス上でデータパイプラインを構築できるツールです。
本記事では、CSVファイルの取り込みから変換(フィルタ、結合、集計等)、Unity Catalog への出力、スケジュール設定まで、基本操作を一通り検証します。

【公式ドキュメント】
https://docs.databricks.com/aws/ja/designer/what-is-lakeflow-designer

概要

背景

データ分析の現場では、以下のようなニーズが増えています。

  • SQL や Python を書かずにデータの加工・準備を行いたい
  • ETL/ELT パイプラインのプロトタイピングを素早く行いたい
  • ビジュアルな操作でデータフローを直感的に把握したい

LakeFlow Designer を使えば、これらを Databricks のビジュアルキャンバス上 でドラッグ&ドロップ操作により実現できます。

LakeFlow Designer の基本概念

LakeFlow Designer は、演算子(オペレーター) をキャンバス上に配置し、接続することでデータパイプラインを構築します。データは DAG(有向非巡回グラフ)として 左から右 へ流れます。

主な特徴は以下の通りです。

特徴 内容
ビジュアルキャンバス ドラッグ&ドロップで演算子を配置・接続
演算子ベース フィルタ、結合、集計など各種演算子を連結してワークフローを構築
Genie Code 統合 自然言語プロンプトから変換コードを自動生成
プレビュー機能 各ステップの結果を最大 1,000 行のサンプルデータで即座に確認可能
データプロファイリング 出力データの統計情報やグラフを表示

組み込みオペレーター一覧

LakeFlow Designer には、以下の組み込みオペレーターが用意されています。

カテゴリ オペレーター 概要
ソースと出力 ソース Unity Catalog テーブルやファイルからデータを取り込み
ソースと出力 出力 Unity Catalog テーブルへの書き込み
変換 フィルター 条件指定で行を選別
変換 結合(Join) 内部結合、左結合、右結合、完全結合に対応
変換 集計 GROUP BY + 集計関数(AVG, COUNT, MAX, SUM 等)
変換 組み合わせ Union, Intersect, Except による複数テーブルのマージ
変換 ピボット 行→列(ピボット)/ 列→行(アンピボット)の変形
変換 ソート 1つ以上の列で ASC/DESC 順序指定
変換 制限 処理対象の最大行数を指定
変換 変換(Transform) 列の選択・作成・変換。自然言語でのカスタム列定義も可能
変換 SQL カスタム SQL コードによる変換
変換 Python カスタム PySpark 処理
AI ai_analyze_sentiment 等 感情分析、分類、抽出、要約、翻訳など 9 種類の AI 機能
組織 注記 Markdown 対応のメモをキャンバスに追加
組織 グループ 演算子を視覚的にグルーピング

2026-04-27_13h42_13

前提条件

LakeFlow Designer を使用するには、以下の条件を満たす必要があります。

  • Unity Catalog 対応の Databricks ワークスペース
  • コンピュートリソース(サーバレスまたは汎用クラスター)への CAN USE 権限
  • Databricks AI 支援機能の有効化

使用するデータ

今回はdbtのサンプルデータjaffle-shopを活用しています。

https://github.com/dbt-labs/jaffle-shop

LakeFlow Designer の基本操作検証

以降の検証では、1本のパイプラインを段階的に構築していきます。CSV の取り込みからフィルタ、結合、集計、変換、SQL、出力、スケジュール設定までを一連の流れで検証します。

プロジェクトの作成

サイドバーの「新規」から「ビジュアルデータ準備」を選択してプロジェクトを作成します。

  1. Databricks ワークスペースのサイドバーで 「新規」 をクリック
  2. 「ビジュアルデータ準備」 を選択
  3. ウェルカム画面が表示され、空のキャンバスが開く

2026-04-27_13h59_03

データ取り込み(CSV アップロード)

ローカルの CSV ファイルをキャンバスにドラッグ&ドロップしてデータを取り込みます。

  1. ローカルの raw_customers.csvraw_orders.csv をキャンバス上にドラッグ&ドロップ
  2. LakeFlow Designer が自動的にワークスペースファイルシステムにアップロード
  3. ソース演算子 が自動作成される
  4. 演算子を選択すると、画面下部の出力ペインにプレビューが表示される

2026-04-27_14h04_08

2026-04-27_14h04_27

2026-04-27_14h09_06

補足: CSV以外にも、Unity Catalog の既存テーブル、Google Drive、SharePoint からのインポートにも対応しています(Google Drive / SharePoint からのインポートには、対象サービスへアクセス可能な Unity Catalog 接続が必要です)。Salesforce や Workday などの外部ソースについては、LakeFlow Connect を利用します。

なお、大量データを扱う場合は、ドラッグ&ドロップではなく 「ファイルからテーブルを作成」 を選択し、Unity Catalog のマネージドテーブルとして取り込む方法が推奨されています。この方法のほうがパフォーマンスが高くなります。

フィルター演算子

取り込んだ顧客データに対して、顧客 ID によるフィルタリングを行います。

  1. raw_customers.csv のソース演算子の出力ハンドル(右端の円)をドラッグ
  2. 左サイドパネルから 「フィルター」 演算子を選択してキャンバスに配置し、接続
  3. フィルター演算子をダブルクリックして設定ペインを開く
  4. 条件ビルダーで以下を設定:
    • 列: ID
    • 条件: と等しい
    • 値: 50a2d1c4-d788-4498-a6f7-dd75d4db588f

2026-04-27_14h13_17

プレビュー

2026-04-27_14h14_38

補足: 条件ビルダーでは「等しい」「含む」「始まる」「終わる」「大小比較」など 7 種類の条件タイプが使用できます。複数条件を AND/OR で組み合わせることも可能です。

結合(Join)演算子

raw_customers.csvraw_orders.csvを結合します。

  1. 左サイドパネルから 「結合(Join)」 演算子をキャンバスに配置
  2. フィルター演算子の出力raw_orders.csv ソースの出力ハンドルを、それぞれ Join 演算子の入力に接続
  3. Join 演算子をダブルクリックして設定:
    • 結合タイプ: 内部結合(Inner Join)
    • 結合条件: raw_customers.id = raw_orders.customers

2026-04-27_14h22_04

プレビュー

2026-04-27_14h24_46

補足: 内部結合の他に、左結合、右結合、完全結合にも対応しています。

集計演算子

結合したデータに対して、顧客ごとの注文金額合計を集計します。

  1. Join 演算子の出力から 「集計」 演算子に接続
  2. 集計演算子をダブルクリックして設定:
    • グループ化列: customer
    • 集計関数: SUM(order_total) → 列名 total_amount
    • 集計関数: COUNT(raw_orders.id) → 列名 order_count

2026-04-27_14h31_29

プレビュー

2026-04-27_14h33_08

補足: 集計関数は AVG、COUNT、MAX、MEAN、MEDIAN、MIN、PERCENTILE、STDDEV、SUM、VARIANCE に対応しています。

変換(Transform)演算子

列の選択やカスタム列の追加を行います。

  1. 集計演算子の出力から 「変換(Transform)」 演算子に接続
  2. 変換演算子をダブルクリックして設定:
    • 必要な列だけを残し、カスタム列 avg_order_value = total_amount / order_count を追加

2026-04-27_14h34_35

Genie Code による自然言語変換

変換演算子では、Genie Code を使って自然言語プロンプトからカスタム列を自動生成することもできます。

例: 「order_totalの合計が5000以上の顧客を'高額顧客'、それ以外を'一般顧客'としてラベル付けしてください」

2026-04-27_14h39_16

プレビュー
2026-04-27_14h40_54

結果: GUI での列操作に加え、自然言語プロンプトからカスタム列の定義コードが自動生成された。

SQL 演算子

組み込みオペレーターでカバーされない変換には、カスタム SQL を使用できます。

  1. 左サイドパネルから 「SQL」 演算子をキャンバスに配置
  2. 上流の演算子と接続
  3. SQL 演算子をダブルクリックしてエディタを開く
  4. 上流の演算子名をテーブル名として参照し、SQL を記述
SELECT * 
FROM aggregate_4
WHERE order_count >= 100

2026-04-27_14h43_35

補足: SQL の他に Python 演算子 も用意されており、カスタム PySpark 処理を記述できます。上流の入力は inputs["data"] のリストとして Spark DataFrame で渡され、最終結果となる単一の DataFrame を result に代入します。

出力(Unity Catalog への書き込み)

変換結果を Unity Catalog のテーブルに書き込みます。

  1. 最終段の演算子の出力から 「出力」 演算子に接続
  2. 出力演算子をダブルクリックして設定:
    • テーブル名: customer_order_summary
    • カタログ: workspace
    • スキーマ: default
  3. 画面上部の 「実行」 ボタンをクリック

2026-04-27_14h45_04

2026-04-27_14h45_30

結果: 変換結果が Unity Catalog テーブルとして書き込まれた。

スケジュール設定

作成したパイプラインを定期的に自動実行するスケジュールを設定します。

  1. 画面上部の 「スケジュール」 ボタンをクリック
  2. 実行頻度やタイミングを設定
  3. スケジュールを保存

2026-04-27_14h46_15

結果: ビジュアルデータ準備のパイプラインを Databricks ジョブとしてスケジュール実行できることを確認した。

補足: 「スケジュール」ボタンからの直接設定の他に、Databricks ジョブのタスクとして組み込むことも可能です。既存のジョブパイプラインの一部として利用する場合はこちらが適しています。

所感・注意点

項目 内容
パブリックプレビュー 2026 年 4 月時点でパブリックプレビュー段階。本番適用は十分な検証のうえで判断を推奨
プレビューの行数制限 デフォルトは 1,000 行サンプル。完全データセット実行も可能だが処理時間が増加する
Genie Code 自然言語からの変換コード自動生成は便利だが、複雑な要件では手動調整が必要な場合がある
ノーコード + ローコード GUI 操作だけで完結できる一方、SQL / Python 演算子でコードも書けるため、幅広いスキルレベルに対応
キャンバス操作 Cmd/Ctrl+Z で元に戻す、Cmd/Ctrl+C→V で演算子の複製、DAG アイコンで自動レイアウトなど、便利なショートカットが用意されている

まとめ

検証項目 結果
プロジェクト作成 サイドバーから「ビジュアルデータ準備」で数クリックで作成
CSV インポート ドラッグ&ドロップで即座に取り込み、ソース演算子が自動作成
フィルター 条件ビルダーで直感的に条件設定。7 種類の条件タイプ対応
結合(Join) GUI で結合条件・タイプを指定。内部/左/右/完全結合に対応
集計 GROUP BY + 集計関数を GUI で設定。AVG, COUNT, SUM 等に対応
変換(Transform) 列操作やカスタム列を GUI / 自然言語(Genie Code)で定義
SQL カスタム SQL で柔軟な変換が可能。上流演算子名をテーブルとして参照
出力 Unity Catalog テーブルへの書き込みをワンクリックで実行
スケジュール Databricks ジョブとしてスケジュール実行が可能

LakeFlow Designer は、コードを書かずにデータパイプラインを構築できるため、SQL や Python に馴染みのないアナリストにとって強力なツールです。一方で、SQL / Python 演算子も用意されているため、必要に応じてコードによる柔軟な変換も行えます。

パブリックプレビュー段階ではありますが、データの取り込みから変換、出力、スケジュール設定まで一通りの操作が直感的に行えることを確認できました。GA 後の正式リリースに期待です。

参考

この記事が何かの参考になれば幸いです!

この記事をシェアする

関連記事