[資料公開] 試されDATA SAPPOROで「Data & AIの未来とLakeHouse」というタイトルで登壇しました

[資料公開] 試されDATA SAPPOROで「Data & AIの未来とLakeHouse」というタイトルで登壇しました

2025.11.08

クラウド事業本部の石川です。先日、2025年11月7日に開催されたイベント 試されDATA SAPPORO にて、 「Data & AIの未来とLakeHouse」 というタイトルで登壇しました。

https://tamesaredatahokkaido.connpass.com/event/369741/

本日は、当日の発表内容をダイジェストでご紹介します。

登壇資料

Dataware HouseとDataLakeでデータが分断されていませんか? そのサイロ化問題を解決するのが、DWHの「信頼性」とDataLakeの「柔軟性」を両立させる新標準「LakeHouse」です 。中核技術Apache Icebergがデータレイクの信頼性を高め 、BIからAIまで多様なワークロードを単一基盤で実現します 。特に生成AI(RAG)活用の鍵となる「信頼できる唯一の情報源」 として不可欠な、次世代データ基盤の全貌を解説します 。

LakeHouseとは?

スクリーンショット 2025-11-09 1.28.49

  • これは、DataLakeの柔軟性DWH(データウェアハウス)の信頼性を単一の基盤に統合するものです。
  • BI、AI、ストリーミングなど多様なワークロードを統一的に扱えます。
  • LakeHouseはAI時代のデータ戦略の中核であり、その技術的根幹にはApache Icebergなどのオープンフォーマットが存在します。

DWHとDataLakeの課題

従来のデータ分析基盤は、DWHとDataLakeという2つのアプローチに分かれていました。

スクリーンショット 2025-11-09 1.23.16

この2つの基盤が併存することにより、以下の問題が発生していました。

  • データのサイロ化: BI用とAI用のデータが分断される。
  • 高コスト・複雑性: 2つの異なる基盤の維持管理が必要。
  • データの二重管理と鮮度の低下: 同じデータを別々に管理する必要があり、鮮度が落ちる。

LakeHouseによる解決

LakeHouseは、DataLakeの安価なストレージ(S3やGCSなど)の上に、DWHのような信頼性や管理機能(トランザクション、ガバナンス)を提供します。

  • 単一のデータソース(サイロ化の解消):
    • 単一のデータソースに対して、BIクエリ(SQL)とAI/ML(Pythonなど)の両方のワークロードを実行できます。
  • 高い信頼性(ACIDトランザクション):
    • Apache Icebergなどのオープンテーブルフォーマット(OTF)により、データレイク上でACIDトランザクションが可能になります。
  • オープンな標準フォーマット:
    • Apache Parquetなどのオープンな形式を採用し、複数のDWH間でライブデータを共有できます。

LakeHouseを支える Apache Iceberg

LakeHouseアーキテクチャの中核をなすのが、Apache Icebergです。

  • Apache Icebergとは?
    • DataLake上にあるペタバイト規模の巨大な分析用データセットを管理するために設計された、オープンソースのテーブルフォーマット(OTF)です。
    • 2017年にNetflixで誕生しました。
  • DataLakeの課題を解決:
    • Icebergは、従来のDataLakeが抱えていた技術的な課題を解決します。
    • データ整合性の欠如楽観的同時実行制御(ACIDトランザクション)で解決。
    • 少量レコード更新の非効率性Row-levelの更新・削除(MERGE、UPDATE、DELETE)をサポート。
    • パーティション管理の限界 → **Hidden Partitioning(隠しパーティション)**により、ユーザーはパーティションを意識不要。
    • 過去状態の復元が困難タイムトラベル機能により、任意の時点のスナップショットにアクセス可能。

LakeHouseとAIの未来

AI、特に生成AIの時代において、LakeHouseは不可欠な存在となります。

  • AI(RAG)の要件:
    • 生成AI(LLM)がハルシネーションを避けるためには、**RAG(検索拡張生成)**によって信頼できる外部情報を参照する必要があります。
  • LakeHouseの役割:
    • LakeHouseは、**構造化データ(DB)非構造化データ(文書、画像など)**の両方を、信頼できる品質で一元管理できます。
    • これにより、LakeHouseはRAGにとって理想的な「信頼できる唯一の情報源(Single Source of Truth)」として機能します。
    • 例えば、最新の売上データ(構造化)と顧客レビュー(非構造化テキスト)を同じ基盤上で簡単に組み合わせて(JOIN)、AIの学習用データとして利用できます。

AWSによるLakeHouse戦略

AWSも、Apache Icebergを中心としたオープンなLakeHouse戦略を強力に推進しています。

  • アーキテクチャのコア: Apache Icebergをコア技術として採用。
  • 多様なクエリエンジン: Amazon Redshift, Amazon Athena, AWS Glue, Amazon EMRなどがIcebergをネイティブに利用できます。
  • オープンな連携: AWS Glue Iceberg REST endpoint(re:Invent 2024で発表)などにより、SparkやTrinoなどAWS外のツールからもシームレスな利用が可能になります。
  • マネージドサービス: Amazon S3 Tables(自動コンパクションやスナップショット管理を自動化するIceberg専用ストレージ)なども提供されています。

スクリーンショット 2025-11-09 1.26.23

最後に

LakeHouseは、AI技術の発展とともにデータ活用の新たな柱となっています。AWSもApache Icebergを中心にオープンなLakeHouse戦略を推進し、Amazon AthenaやAWS Glueなど多様なサービスで対応を進めています。これにより、高い信頼性と柔軟性を兼ね備えた次世代データ基盤の実現が加速し、生成AIのRAG活用にも最適な「信頼できる唯一の情報源」としての役割を果たせるでしょう。今後の展開にもぜひご注目ください。

この記事をシェアする

FacebookHatena blogX

関連記事