【新機能】DatabricksのLakeflow Designerがパブリックプレビューとなったので試してみた

2026.04.27

かわばたです。
2026年4月22日にLakeflow Designerがパブリックプレビューとなりました。
LakeFlow Designerは、コードを書かずにビジュアルキャンバス上でデータパイプラインを構築できるツールです。

本記事では、CSVファイルの取り込みから変換（フィルタ、結合、集計等）、Unity Catalog への出力、スケジュール設定まで、基本操作を一通り検証します。
【公式ドキュメント】

https://docs.databricks.com/aws/ja/designer/what-is-lakeflow-designer
 概要 背景データ分析の現場では、以下のようなニーズが増えています。
SQL や Python を書かずにデータの加工・準備を行いたい
ETL/ELT パイプラインのプロトタイピングを素早く行いたい
ビジュアルな操作でデータフローを直感的に把握したい
LakeFlow Designer を使えば、これらを Databricks のビジュアルキャンバス上 でドラッグ&ドロップ操作により実現できます。
 LakeFlow Designer の基本概念LakeFlow Designer は、演算子（オペレーター） をキャンバス上に配置し、接続することでデータパイプラインを構築します。データは DAG（有向非巡回グラフ）として 左から右 へ流れます。
主な特徴は以下の通りです。


特徴
内容


ビジュアルキャンバス
ドラッグ&ドロップで演算子を配置・接続

演算子ベース
フィルタ、結合、集計など各種演算子を連結してワークフローを構築

Genie Code 統合
自然言語プロンプトから変換コードを自動生成

プレビュー機能
各ステップの結果を最大 1,000 行のサンプルデータで即座に確認可能

データプロファイリング
出力データの統計情報やグラフを表示

 組み込みオペレーター一覧LakeFlow Designer には、以下の組み込みオペレーターが用意されています。


カテゴリ
オペレーター
概要


ソースと出力
ソース
Unity Catalog テーブルやファイルからデータを取り込み

ソースと出力
出力
Unity Catalog テーブルへの書き込み

変換
フィルター
条件指定で行を選別

変換
結合（Join）
内部結合、左結合、右結合、完全結合に対応

変換
集計
GROUP BY + 集計関数（AVG, COUNT, MAX, SUM 等）

変換
組み合わせ
Union, Intersect, Except による複数テーブルのマージ

変換
ピボット
行→列（ピボット）/ 列→行（アンピボット）の変形

変換
ソート
1つ以上の列で ASC/DESC 順序指定

変換
制限
処理対象の最大行数を指定

変換
変換（Transform）
列の選択・作成・変換。自然言語でのカスタム列定義も可能

変換
SQL
カスタム SQL コードによる変換

変換
Python
カスタム PySpark 処理

AI
ai_analyze_sentiment 等
感情分析、分類、抽出、要約、翻訳など 9 種類の AI 機能

組織
注記
Markdown 対応のメモをキャンバスに追加

組織
グループ
演算子を視覚的にグルーピング

 前提条件LakeFlow Designer を使用するには、以下の条件を満たす必要があります。
Unity Catalog 対応の Databricks ワークスペース
コンピュートリソース（サーバレスまたは汎用クラスター）への CAN USE 権限
Databricks AI 支援機能の有効化
!LakeFlow Designer は 2026 年 4 月時点でパブリックプレビュー段階です。そのため、本番ワークロードへの適用は十分な検証のうえで判断することを推奨します。
 使用するデータ今回はdbtのサンプルデータjaffle-shopを活用しています。
https://github.com/dbt-labs/jaffle-shop
 LakeFlow Designer の基本操作検証以降の検証では、1本のパイプラインを段階的に構築していきます。CSV の取り込みからフィルタ、結合、集計、変換、SQL、出力、スケジュール設定までを一連の流れで検証します。
 プロジェクトの作成サイドバーの「新規」から「ビジュアルデータ準備」を選択してプロジェクトを作成します。
Databricks ワークスペースのサイドバーで 「新規」 をクリック
「ビジュアルデータ準備」 を選択
ウェルカム画面が表示され、空のキャンバスが開く
 データ取り込み（CSV アップロード）ローカルの CSV ファイルをキャンバスにドラッグ&ドロップしてデータを取り込みます。
ローカルの raw_customers.csv、raw_orders.csv をキャンバス上にドラッグ&ドロップ
LakeFlow Designer が自動的にワークスペースファイルシステムにアップロード
ソース演算子 が自動作成される
演算子を選択すると、画面下部の出力ペインにプレビューが表示される
補足: CSV以外にも、Unity Catalog の既存テーブル、Google Drive、SharePoint からのインポートにも対応しています（Google Drive / SharePoint からのインポートには、対象サービスへアクセス可能な Unity Catalog 接続が必要です）。Salesforce や Workday などの外部ソースについては、LakeFlow Connect を利用します。
なお、大量データを扱う場合は、ドラッグ&ドロップではなく 「ファイルからテーブルを作成」 を選択し、Unity Catalog のマネージドテーブルとして取り込む方法が推奨されています。この方法のほうがパフォーマンスが高くなります。
 フィルター演算子取り込んだ顧客データに対して、顧客 ID によるフィルタリングを行います。
raw_customers.csv のソース演算子の出力ハンドル（右端の円）をドラッグ
左サイドパネルから 「フィルター」 演算子を選択してキャンバスに配置し、接続
フィルター演算子をダブルクリックして設定ペインを開く
条件ビルダーで以下を設定:
列: ID
条件: と等しい
値: 50a2d1c4-d788-4498-a6f7-dd75d4db588f

プレビュー
補足: 条件ビルダーでは「等しい」「含む」「始まる」「終わる」「大小比較」など 7 種類の条件タイプが使用できます。複数条件を AND/OR で組み合わせることも可能です。
 結合（Join）演算子raw_customers.csv、raw_orders.csvを結合します。
左サイドパネルから 「結合（Join）」 演算子をキャンバスに配置
フィルター演算子の出力 と raw_orders.csv ソースの出力ハンドルを、それぞれ Join 演算子の入力に接続
Join 演算子をダブルクリックして設定:
結合タイプ: 内部結合（Inner Join）
結合条件: raw_customers.id = raw_orders.customers

プレビュー
補足: 内部結合の他に、左結合、右結合、完全結合にも対応しています。
 集計演算子結合したデータに対して、顧客ごとの注文金額合計を集計します。
Join 演算子の出力から 「集計」 演算子に接続
集計演算子をダブルクリックして設定:
グループ化列: customer
集計関数: SUM(order_total) → 列名 total_amount
集計関数: COUNT(raw_orders.id) → 列名 order_count

プレビュー
補足: 集計関数は AVG、COUNT、MAX、MEAN、MEDIAN、MIN、PERCENTILE、STDDEV、SUM、VARIANCE に対応しています。
 変換（Transform）演算子列の選択やカスタム列の追加を行います。
集計演算子の出力から 「変換（Transform）」 演算子に接続
変換演算子をダブルクリックして設定:
必要な列だけを残し、カスタム列 avg_order_value = total_amount / order_count を追加

 Genie Code による自然言語変換変換演算子では、Genie Code を使って自然言語プロンプトからカスタム列を自動生成することもできます。
例: 「order_totalの合計が5000以上の顧客を'高額顧客'、それ以外を'一般顧客'としてラベル付けしてください」
プレビュー

結果: GUI での列操作に加え、自然言語プロンプトからカスタム列の定義コードが自動生成された。
 SQL 演算子組み込みオペレーターでカバーされない変換には、カスタム SQL を使用できます。
左サイドパネルから 「SQL」 演算子をキャンバスに配置
上流の演算子と接続
SQL 演算子をダブルクリックしてエディタを開く
上流の演算子名をテーブル名として参照し、SQL を記述
SELECT * 
FROM aggregate_4
WHERE order_count >= 100
補足: SQL の他に Python 演算子 も用意されており、カスタム PySpark 処理を記述できます。上流の入力は inputs["data"] のリストとして Spark DataFrame で渡され、最終結果となる単一の DataFrame を result に代入します。
 出力（Unity Catalog への書き込み）変換結果を Unity Catalog のテーブルに書き込みます。
最終段の演算子の出力から 「出力」 演算子に接続
出力演算子をダブルクリックして設定:
テーブル名: customer_order_summary
カタログ: workspace
スキーマ: default

画面上部の 「実行」 ボタンをクリック
結果: 変換結果が Unity Catalog テーブルとして書き込まれた。
 スケジュール設定作成したパイプラインを定期的に自動実行するスケジュールを設定します。
画面上部の 「スケジュール」 ボタンをクリック
実行頻度やタイミングを設定
スケジュールを保存
結果: ビジュアルデータ準備のパイプラインを Databricks ジョブとしてスケジュール実行できることを確認した。
補足: 「スケジュール」ボタンからの直接設定の他に、Databricks ジョブのタスクとして組み込むことも可能です。既存のジョブパイプラインの一部として利用する場合はこちらが適しています。
 所感・注意点

項目
内容


パブリックプレビュー
2026 年 4 月時点でパブリックプレビュー段階。本番適用は十分な検証のうえで判断を推奨

プレビューの行数制限
デフォルトは 1,000 行サンプル。完全データセット実行も可能だが処理時間が増加する

Genie Code
自然言語からの変換コード自動生成は便利だが、複雑な要件では手動調整が必要な場合がある

ノーコード + ローコード
GUI 操作だけで完結できる一方、SQL / Python 演算子でコードも書けるため、幅広いスキルレベルに対応

キャンバス操作
Cmd/Ctrl+Z で元に戻す、Cmd/Ctrl+C→V で演算子の複製、DAG アイコンで自動レイアウトなど、便利なショートカットが用意されている

 まとめ

検証項目
結果


プロジェクト作成
サイドバーから「ビジュアルデータ準備」で数クリックで作成

CSV インポート
ドラッグ&ドロップで即座に取り込み、ソース演算子が自動作成

フィルター
条件ビルダーで直感的に条件設定。7 種類の条件タイプ対応

結合（Join）
GUI で結合条件・タイプを指定。内部/左/右/完全結合に対応

集計
GROUP BY + 集計関数を GUI で設定。AVG, COUNT, SUM 等に対応

変換（Transform）
列操作やカスタム列を GUI / 自然言語（Genie Code）で定義

SQL
カスタム SQL で柔軟な変換が可能。上流演算子名をテーブルとして参照

出力
Unity Catalog テーブルへの書き込みをワンクリックで実行

スケジュール
Databricks ジョブとしてスケジュール実行が可能

LakeFlow Designer は、コードを書かずにデータパイプラインを構築できるため、SQL や Python に馴染みのないアナリストにとって強力なツールです。一方で、SQL / Python 演算子も用意されているため、必要に応じてコードによる柔軟な変換も行えます。
パブリックプレビュー段階ではありますが、データの取り込みから変換、出力、スケジュール設定まで一通りの操作が直感的に行えることを確認できました。GA 後の正式リリースに期待です。
 参考LakeFlow Designer とは
ビジュアルデータ準備を構築する
データの取り込み
組み込みオペレーター
この記事が何かの参考になれば幸いです！

【新機能】DatabricksのLakeflow Designerがパブリックプレビューとなったので試してみた

概要

背景

LakeFlow Designer の基本概念

組み込みオペレーター一覧

前提条件

使用するデータ

LakeFlow Designer の基本操作検証

プロジェクトの作成

データ取り込み（CSV アップロード）

フィルター演算子

結合（Join）演算子

集計演算子

変換（Transform）演算子

Genie Code による自然言語変換

SQL 演算子

出力（Unity Catalog への書き込み）

スケジュール設定

所感・注意点

まとめ

参考

関連記事

AWSで探す

注目のテーマ

プロダクトやサービスで探す

特集やシリーズから探す

EVENTS

特徴	内容
ビジュアルキャンバス	ドラッグ&ドロップで演算子を配置・接続
演算子ベース	フィルタ、結合、集計など各種演算子を連結してワークフローを構築
Genie Code 統合	自然言語プロンプトから変換コードを自動生成
プレビュー機能	各ステップの結果を最大 1,000 行のサンプルデータで即座に確認可能
データプロファイリング	出力データの統計情報やグラフを表示

カテゴリ	オペレーター	概要
ソースと出力	ソース	Unity Catalog テーブルやファイルからデータを取り込み
ソースと出力	出力	Unity Catalog テーブルへの書き込み
変換	フィルター	条件指定で行を選別
変換	結合（Join）	内部結合、左結合、右結合、完全結合に対応
変換	集計	GROUP BY + 集計関数（AVG, COUNT, MAX, SUM 等）
変換	組み合わせ	Union, Intersect, Except による複数テーブルのマージ
変換	ピボット	行→列（ピボット）/ 列→行（アンピボット）の変形
変換	ソート	1つ以上の列で ASC/DESC 順序指定
変換	制限	処理対象の最大行数を指定
変換	変換（Transform）	列の選択・作成・変換。自然言語でのカスタム列定義も可能
変換	SQL	カスタム SQL コードによる変換
変換	Python	カスタム PySpark 処理
AI	ai_analyze_sentiment 等	感情分析、分類、抽出、要約、翻訳など 9 種類の AI 機能
組織	注記	Markdown 対応のメモをキャンバスに追加
組織	グループ	演算子を視覚的にグルーピング

項目	内容
パブリックプレビュー	2026 年 4 月時点でパブリックプレビュー段階。本番適用は十分な検証のうえで判断を推奨
プレビューの行数制限	デフォルトは 1,000 行サンプル。完全データセット実行も可能だが処理時間が増加する
Genie Code	自然言語からの変換コード自動生成は便利だが、複雑な要件では手動調整が必要な場合がある
ノーコード + ローコード	GUI 操作だけで完結できる一方、SQL / Python 演算子でコードも書けるため、幅広いスキルレベルに対応
キャンバス操作	Cmd/Ctrl+Z で元に戻す、Cmd/Ctrl+C→V で演算子の複製、DAG アイコンで自動レイアウトなど、便利なショートカットが用意されている

検証項目	結果
プロジェクト作成	サイドバーから「ビジュアルデータ準備」で数クリックで作成
CSV インポート	ドラッグ&ドロップで即座に取り込み、ソース演算子が自動作成
フィルター	条件ビルダーで直感的に条件設定。7 種類の条件タイプ対応
結合（Join）	GUI で結合条件・タイプを指定。内部/左/右/完全結合に対応
集計	GROUP BY + 集計関数を GUI で設定。AVG, COUNT, SUM 等に対応
変換（Transform）	列操作やカスタム列を GUI / 自然言語（Genie Code）で定義
SQL	カスタム SQL で柔軟な変換が可能。上流演算子名をテーブルとして参照
出力	Unity Catalog テーブルへの書き込みをワンクリックで実行
スケジュール	Databricks ジョブとしてスケジュール実行が可能