Databricks Free Editionでユーザー管理のS3に対する外部テーブル作成・Delta Lakeとしてのデータロードを試してみた

2025.07.17
さがらです。
Databricks Free Editionでユーザー管理のS3に対する外部テーブル作成・Delta Lakeとしてのデータロードを試してみたので、その内容を本記事でまとめてみます。
 事前準備：Databricks Free Editionのアカウント作成まず、Databricks Free Editionで検証しますのでそのアカウント作成を行います。
以下の記事が参考になると思います。
https://dev.classmethod.jp/articles/databricks-express-setup-202507/
 S3バケットの作成databricks-bucket-sagaraという名前で、各設定はデフォルト値でS3バケットを作成します。
おまけで、Free Edition用のフォルダも作成しておきます。（これは任意です。）
 IAMロールの作成カスタム信頼ポリシーを下記のように設定して、IAMロールを作成します。
このポリシーでは、 Unity Catalogがバケット内のデータにアクセスするロールを引き受けることができるように、アカウント間の信頼関係を確立します。（これはPrincipalセクションのARNによって指定されます。）
sts:ExternalIdの値は後で変更するため、暫定値として公式ドキュメントに沿って0000を入れています。
{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Effect": "Allow",
      "Principal": {
        "AWS": ["arn:aws:iam::414351767826:role/unity-catalog-prod-UCMasterRole-14S5ZJVKOTYTL"]
      },
      "Action": "sts:AssumeRole",
      "Condition": {
        "StringEquals": {
          "sts:ExternalId": "0000"
        }
      }
    }
  ]
}
IAMロール名はdatabricks-s3-access-roleとしました。
 IAMポリシーの作成以下、2つのIAMポリシーを先ほど作成したIAMロールのインラインポリシーとして作成します。
 1つ目：S3バケットに対する読み書きのアクセス権限1つ目：S3バケットに対する読み書きのアクセス権限（databricks-s3-read-write-policyとして作成）
<BUCKET>：作成したS3バケット名
本記事ではdatabricks-bucket-sagaraが該当

<AWS-ACCOUNT-ID>：使用しているAWSアカウントID
<AWS-IAM-ROLE-NAME>：作成したIAMロール名
本記事ではdatabricks-s3-access-roleが該当


{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Action": [
        "s3:GetObject",
        "s3:PutObject",
        "s3:DeleteObject",
        "s3:ListBucket",
        "s3:GetBucketLocation",
        "s3:ListBucketMultipartUploads",
        "s3:ListMultipartUploadParts",
        "s3:AbortMultipartUpload"
      ],
      "Resource": ["arn:aws:s3:::<BUCKET>/*", "arn:aws:s3:::<BUCKET>"],
      "Effect": "Allow"
    },
    {
      "Action": ["sts:AssumeRole"],
      "Resource": ["arn:aws:iam::<AWS-ACCOUNT-ID>:role/<AWS-IAM-ROLE-NAME>"],
      "Effect": "Allow"
    }
  ]
}
 2つ目：Databricksでファイルイベントを設定する場合に必要な権限2つ目：Databricksでファイルイベントを設定する場合に必要な権限（databricks-s3-file-event-policy）
<BUCKET>：作成したS3バケット名
本記事ではdatabricks-bucket-sagaraが該当


{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Sid": "ManagedFileEventsSetupStatement",
      "Effect": "Allow",
      "Action": [
        "s3:GetBucketNotification",
        "s3:PutBucketNotification",
        "sns:ListSubscriptionsByTopic",
        "sns:GetTopicAttributes",
        "sns:SetTopicAttributes",
        "sns:CreateTopic",
        "sns:TagResource",
        "sns:Publish",
        "sns:Subscribe",
        "sqs:CreateQueue",
        "sqs:DeleteMessage",
        "sqs:ReceiveMessage",
        "sqs:SendMessage",
        "sqs:GetQueueUrl",
        "sqs:GetQueueAttributes",
        "sqs:SetQueueAttributes",
        "sqs:TagQueue",
        "sqs:ChangeMessageVisibility",
        "sqs:PurgeQueue"
      ],
      "Resource": ["arn:aws:s3:::<BUCKET>", "arn:aws:sqs:*:*:csms-*", "arn:aws:sns:*:*:csms-*"]
    },
    {
      "Sid": "ManagedFileEventsListStatement",
      "Effect": "Allow",
      "Action": ["sqs:ListQueues", "sqs:ListQueueTags", "sns:ListTopics"],
      "Resource": ["arn:aws:sqs:*:*:csms-*", "arn:aws:sns:*:*:csms-*"]
    },
    {
      "Sid": "ManagedFileEventsTeardownStatement",
      "Effect": "Allow",
      "Action": ["sns:Unsubscribe", "sns:DeleteTopic", "sqs:DeleteQueue"],
      "Resource": ["arn:aws:sqs:*:*:csms-*", "arn:aws:sns:*:*:csms-*"]
    }
  ]
}
 Credentialの作成Databricksの画面で、CatalogからAdd dataを押し、Create a credentialを押します。
表示された画面でCredential nameを入れて、IAM role(ARN)は先程作成したIAMロールのARNを入れます。
下図のように表示されますので、Trust policyの内容をコピーします。
コピーした内容で、作成したIAMロールの信頼ポリシーを書き換えます。
この後にDatabricksの画面に戻り、作成したCredentialの画面右上でValidate Configurationを押すと、下図のように表示されるはずです。こうなっていれば無事に設定できている、という状態となります。
 External Locationsの作成Databricksの画面で、CatalogからAdd dataを押し、Create an external locationを押します。
Storage Credentialは先程作成済のため、Manualで進めます。
External location nameを入れて、URLは対象のS3バケットのURIを入力し、Storage credentialは先程作成したCredentialを指定します。
下図の画面に切り替わりますので、右上のTest connectionを押します。その後下図のように表示されれば、ユーザー管理のS3にDatabricks Free Editionから繋がっている状態となります！
 外部テーブルの作成・クエリ外部テーブルを作成し、クエリしてみます。
 データの準備s3://databricks-bucket-sagara/sagara-free-edition/内でrawというフォルダを作成し、以下の内容の東北地方.csvというファイルをアップロードしておきます。
pref_name,population,area_km2
青森県,1237984,9645.64
岩手県,1210534,15275.01
宮城県,2301996,7282.29
秋田県,959502,11637.52
山形県,1068027,9323.15
福島県,1833152,13784.14
 外部テーブルの作成・クエリ以下のクエリをSQL Editorで実行して、デフォルトのカタログ・スキーマに対して外部テーブルを作成します。
CREATE EXTERNAL TABLE workspace.default.prefectures_jp (
  `pref_name` STRING,
  `population` INT,
  `area_km2` DOUBLE
)
USING CSV
OPTIONS (
  header "true",
  delimiter ",",
  encoding "UTF-8"
)
LOCATION "s3://databricks-bucket-sagara/sagara-free-edition/raw/";
この後、作成した外部テーブルに対してクエリを行います。下図のように表示されたので、無事にクエリが出来ました。
SELECT * FROM workspace.default.prefectures_jp;
 新しくカタログを作成してCOPY INTOでロード新しくカタログを作成して、COPY INTOでロードすることを試してみます。
 データの準備※先ほどの外部テーブルのときと同じデータを利用します。
s3://databricks-bucket-sagara/sagara-free-edition/内でrawというフォルダを作成し、以下の内容の東北地方.csvというファイルをアップロードしておきます。
pref_name,population,area_km2
青森県,1237984,9645.64
岩手県,1210534,15275.01
宮城県,2301996,7282.29
秋田県,959502,11637.52
山形県,1068027,9323.15
福島県,1833152,13784.14
 カタログの作成事前に、下図のようにsagara-catalogというフォルダをS3で作成しておきます。※これは任意です。
Databricksの画面で、Catalog⇛Add dataから、Create Catalogを押します。
下図のようにStorage locationは作成したものを入力し、Createを押します。
下図のように表示されたら、カタログの作成は完了です。
 スキーマ・テーブルを作成しCOPY INTOでロード以下のクエリをSQL Editorで実行して、作成したカタログのdefaultスキーマに対してテーブルを作成してCOPY INTOでロードをします。
CREATE TABLE sagara_catalog.default.prefectures_jp (
  pref_name   STRING,
  population  INT,
  area_km2    DOUBLE
) USING DELTA;                                               

COPY INTO sagara_catalog.default.prefectures_jp
FROM 's3://databricks-bucket-sagara/sagara-free-edition/raw/'
FILEFORMAT = CSV
FORMAT_OPTIONS (
  'header'      = 'true',
  'inferSchema' = 'true',
  'delimiter'   = ',',
  'encoding'    = 'UTF-8'
)
COPY_OPTIONS (
  'mergeSchema' = 'false'
);
この状態で対象のS3を見ると、_unitystorageなどのフォルダが作成されて、末端のフォルダにはlogとparquetが保存されていました。
この上で、作成したテーブルに対してクエリを行うと、無事にロードされたデータが確認できました。
SELECT * FROM sagara_catalog.default.prefectures_jp;
 Streaming Tableを作成して自動でデータロードS3バケットにデータが置かれたらデータロードを指定した時間間隔で自動で行うことができるStreaming Table機能を使ってデータロードを行ってみます。
Streaming Tableについては以下の記事も参考になります。
https://qiita.com/taka_yayoi/items/032ed40adfcd729a30ef
Streaming Tableの制約事項については以下の公式ドキュメントをご覧ください。
https://docs.databricks.com/aws/en/sql/language-manual/sql-ref-syntax-ddl-create-streaming-table#limitations
 データの準備～カタログ作成こちらについては、上述の「新しくカタログを作成してCOPY INTOでロード」で作成したものをそのまま利用します。
 Streaming Tableの作成以下のクエリを実行します。（私が実行したときには、XXSサイズのウェアハウスで1分30秒ほどかかりました。）
このクエリではSCHEDULE REFRESH CRONのところで「1分おきにテーブルのリフレッシュを行う」ように設定しています。
CREATE OR REFRESH STREAMING TABLE sagara_catalog.default.prefectures_jp_streaming
SCHEDULE REFRESH CRON '0 */1 * ? * *' AT TIME ZONE 'UTC'
AS
SELECT
  pref_name,
  CAST(population AS INT)    AS population,
  CAST(area_km2   AS DOUBLE) AS area_km2
FROM STREAM read_files(
  's3://databricks-bucket-sagara/sagara-free-edition/raw/',
  format      => 'csv',
  header      => 'true',
  delimiter   => ',',
  encoding    => 'UTF-8'
);
この上でテーブルに対してクエリをすると、対象のS3バケットに元々あったデータがロードされていました。
SELECT * FROM sagara_catalog.default.prefectures_jp_streaming;
 新しいデータを追加してS3バケットにアップロード1分おきに自動でデータロードが行われるかを確認するため、以下のデータを関東地方.csvとして作成してS3バケットにアップロードします。
pref_name,population,area_km2
茨城県,2863389,6097.39
栃木県,1933146,6408.09
群馬県,1939110,6362.28
埼玉県,7344765,3798.08
千葉県,6284480,5157.57
東京都,13960236,2194.03
神奈川県,9237337,2416.11
アップロード後、約1分後にテーブルをクエリしてみると、関東地方.csvのデータが無事にロードされていました。
 Volumeについて※この章は2025/7/18に追記した内容となります。
DatabricksではS3など外部ストレージを扱うための機能としてVolumeという機能があります。
https://docs.databricks.com/aws/ja/volumes/
このVolumeを使うことで、大きく以下の3つのメリットを得られます。
Volumeとして設定したS3バケットに対して、DatabricksのワークスペースのUIから、ファイルの確認・追加が可能
/Volumes/<カタログ名>/<スキーマ(データベース)名>/<ボリューム名>/という統一されたパスでアクセス可能となる
Volumeはカタログ⇛スキーマ配下のオブジェクトのため、外部ストレージに保持された情報をUnity Catalogの管理化にすることが可能
今回この記事ではVolumeの設定については触れませんが、以下の記事で詳しく説明しているため、ぜひこちらの記事を併せてご覧ください。
https://qiita.com/taka_yayoi/items/47962b105d0f6c16504a#ボリュームの作成
 最後にDatabricks Free Editionでユーザー管理のS3に対する外部テーブル作成・Delta Lakeとしてのデータロードを試してみました。
試した中で特に驚いた点としては、「Auto Loader機能も試してみるか」くらいの軽い気持ちでStreaming Tableを試してみたのですが、「こんなに楽に自動でデータロードを行ってくれるテーブルが作れていいの…？」という衝撃がありましたねｗ