
【セッションレポート】 オープンテーブルフォーマットで実現する、大規模データ分析基盤の構築と運用 (AWS-47) #AWSSummit
2025 年 6 月 26 日 (木) 11:50 - 12:30
登壇者: 疋田 宗太郎 氏
アナリティクススペシャリストソリューションアーキテクト
アマゾン ウェブ サービス ジャパン合同会社
はじめに
機械学習や生成 AI の進展により、企業のデータ分析基盤にはこれまで以上に高い拡張性・堅牢性・パフォーマンスが求められています。特にデータレイクの巨大化に伴い、次のような課題が顕在化しています。
- データ整合性の維持が困難
- パフォーマンス劣化
- データプライバシー要件への対応が高難度化
これらを解決する手法に トランザクショナルデータレイク があります。その中核となるのが オープンテーブルフォーマット(OTF) です。
トランザクショナルデータレイクの要件
トランザクショナルデータレイクに求められる主要要件は以下の通りです。
- レコード単位の更新・削除の効率性
- スキーマ進化への柔軟な対応
- データ整合性と一貫性
- パフォーマンス最適化
- 細かなアクセス制御
これらの要件を実現するために、OTF が活用されます。
オープンテーブルフォーマットとは
OTF は、トランザクション対応やメタデータ管理、ファイル管理機能を備えたテーブルレイヤーです。
代表的な OTF には以下の3つがあります。
- Apache Hudi
- Apache Iceberg
- Delta Lake
中でも AWS は Apache Iceberg に注力しており、他と比べて次のような点で優位性があります。
- 書き込み戦略
トランザクション単位で書き込み戦略を選択可能です。- Copy-on-Write (CoW):読み取りが高速。書き込みコスト高め。
- Merge-on-Read (MoR):書き込み高速。読み取りにマージ処理が必要。
- スキーマ・パーティション
スキーマ・パーティションの「進化」によって、変更に対して柔軟に対応が可能です。また、「隠しパーティション」により、ユーザーにとっての利便性を担保しつつ、煩雑なパーティション管理の手間を軽減します。 - スナップショットとガバナンス
タイムトラベルのためのスナップショットにはタグ付けが可能です。煩雑になりやすいスナップショットのクリーンアップにおいて、重要なスナップショットの保護に役立ちます。 - 小ファイルのコンパクション
- 小さなファイルを自動的に統合します。レコード単位の操作で小さなファイルが蓄積して性能が落ちる問題を回避します。
Amazon SageMaker Lakehouse との統合
Iceberg を中核としたテーブル管理は、Amazon SageMaker Lakehouse とシームレスに統合可能です。
- Zero-ETL パイプライン(共有/取り込み/フェデレーション)による処理の簡素化
- Iceberg APIs による AWS およびサードパーティツールからのアクセス性
- 統合カタログによる一元的なデータ管理とアクセス制御
- ストレージの選択肢(Amazon S3 など)も柔軟に構成可能
実際の効果
- 数ペタバイト級のデータレイクにおける 1,000 レコード削除処理を 3時間 → 2分 に短縮
- ストリーミングデータのリアルタイム更新・削除に柔軟に対応
- クエリ性能・ガバナンス・ストレージコストのバランスを両立
感想
本セッションでは、従来のデータレイクの限界に対して、「トランザクショナルデータレイク」という形で一歩進んだ解決策が明示された点が非常に印象的でした。大規模・多様なワークロードに対応しながらも、柔軟性・一貫性・効率性を高いレベルで両立させる仕組みとして OTF 、特に Iceberg が今後さらに注目されるのではないかと感じました。