
【AWS re:Invent 2025】Architecting the future: Amazon SageMaker as a data and AI platformに参加してきた:統合プラットフォームの必要性
目次
- はじめに
- セッション概要
- なぜ今、統合プラットフォームが必要なのか
- 企業のAI投資の現状
- データプラットフォームが直面する3つの課題
- データワークフローを担う3つのペルソナと課題
- データプロデューサー(Data Producers)
- データコンシューマー(Data Consumers)
- データガバナー(Data Governors)
- Amazon SageMaker Unified Studioのアーキテクチャ
- 単一の開発環境
- レイクハウスアーキテクチャ
- S3 TablesとApache Iceberg
- 注目の新機能
- IAMベースのドメイン
- 新しいネイティブNotebook体験
- 世界初のフルサーバーレスAirflow
- データメッシュアーキテクチャの実装
- まとめ
- 参考情報
はじめに
本記事ではAWS re:Invent 2025で発表された、Amazon SageMaker Unified Studioの次世代プラットフォームに関するセッションの内容をお届けします。SageMaker Unified Studioは、データエンジニアリング、アナリティクス、AIワークフローを単一のプラットフォームで実現する統合開発環境です。
セッション概要
- 登壇者 Brian Rothson (Director of Engineering, Amazon SageMaker Unified Studio)
- 共同登壇者 Sara Boutiani (Principal Solutions Architect)、Justin (Carrierのデータプラットフォーム責任者)
- セッション内容 Amazon SageMaker Unified Studioの最新機能とアーキテクチャ、実際の顧客事例
なぜ今、統合プラットフォームが必要なのか
企業のAI投資の現状
McKinseyの調査によると、78%の企業がAIに多額の投資を行っているものの、4分の3以上がビジネスインパクトを実感できていないという現状があります。多くの企業がAIの価値を理解していながら、それを実際のビジネス成果に結びつけることに苦戦しています。
データプラットフォームが直面する3つの課題
1. 役割の境界線の曖昧化
従来、明確に分かれていたデータエンジニア、データアナリスト、データサイエンティスト、AIエンジニアの役割が曖昧になっています。もはや「一つのグループが作業を完了させて、次のグループに引き渡す」というウォーターフォール型の開発は成り立ちません。
2. 既存投資と新技術の両立
企業は最先端技術を導入したいと考えていますが、数百万ドル規模の既存のデータプラットフォームへの投資を無駄にするわけにはいきません。既存のシステムを活かしながら、AIや新技術の恩恵を受けるにはどうすればよいのでしょうか。
3. エンドツーエンドのAIガバナンス
AIの信頼性は、そのベースとなるデータの信頼性に完全に依存します。データ取り込みからAI活用まで、エンドツーエンドでのガバナンス戦略が不可欠です。
データワークフローを担う3つのペルソナと課題
SageMaker Unified Studioは、データのライフサイクル全体を通じて異なる役割を担う3つのペルソナに焦点を当てています。
データプロデューサー(Data Producers)
データプロデューサーは、運用データストアや外部システムからデータを取り込み、クリーニング、変換、キュレーションを行い、組織の他のメンバーが利用できる形で提供する役割を担います。
直面する主な課題
- データソースへのネットワークパス作成と認証情報の管理
- 様々なフォーマットのデータの正規化
- 大規模データセットでのETLのスケーリングとコスト最適化
- 技術的なデータだけでなく、ビジネスメタデータの生成
- ワークフローの本番運用化と継続的な監視
SageMaker Unified Studioによる解決策
Unified Studioは、幅広いデータソースからの取り込みコネクタを提供し、ゼロETLまたは従来型ETL(Spark、Athena、Glue)を選択できます。
AIによる自動メタデータ生成、自動データ品質評価と異常検知、サーバーレスワークフローとDevOpsパイプラインにより、完全な系譜(Lineage)が自動的にキャプチャされます。
データコンシューマー(Data Consumers)
データコンシューマーは、キュレーションされたデータを使用してビジネス課題を解決するソリューションを構築します。
データサイエンティストがモデルをトレーニングしたり、アナリストが再利用可能なダッシュボードを構築したり、エージェント用のナレッジベースを構築したりします。
直面する主な課題
- 必要なデータが組織のどこにあるのか発見できない
- データを見つけても、アクセス権限の取得が困難
- チーム間でのコラボレーションと成果物の共有
- 事前学習済みモデルの発見とカスタマイズ
- エージェント向けのナレッジベース構築
SageMaker Unified Studioによる解決策
統合された検索とディスカバリー機能により、メタデータを表示してアクセスリクエストを送信できます。新しいNotebook環境でのデータ準備とビジュアライゼーション、事前学習済みモデルの発見とカスタマイズ、MLflowでの実験管理、Agent Coreへのエージェントデプロイまで、一貫した環境で作業できます。
データガバナー(Data Governors)
データガバナーは、企業のルールとコンプライアンスを強制し、データ分類、データ品質、ガードレールなどが期待通りに機能することを保証します。
直面する主な課題
- 大規模組織でのデータアクセスの民主化と適切な制御の両立
- データ品質の継続的な確保
- コンプライアンスルールの適用と監視
SageMaker Unified Studioによる解決策
Gen AIを活用したセマンティック検索によるデータとAIアセットの発見、パブリッシュ・サブスクライブワークフロー、データ品質監視、機密データ検出、完全な系譜トラッキングが可能です。さらに、AIガバナンスとして毒性検出、バイアス検出、ハルシネーション削減のためのガードレールも提供されます。
Amazon SageMaker Unified Studioのアーキテクチャ
単一の開発環境
SageMaker Unified Studioは、異なるスキルセットを持つペルソナをサポートするため、単一の場所からすべての必要なツールにアクセスできます。クエリエディタ、ノートブック、ビジュアルエディタがすべて統合されており、ツールはすべてのサービスで一貫しています。
レイクハウスアーキテクチャ
SageMaker Unified Studioの中核は、レイクハウスアーキテクチャです。これにより、S3、Redshift、外部システム、他のクラウド、オンプレミスなど、あらゆる場所のデータへの統合アクセスが可能になります。
S3 TablesとApache Iceberg
データレイクの構築において、Amazon S3は長年にわたり標準的な選択肢となっています。現在、S3には1000万以上のデータレイクが構築されており、Parquetファイルだけでエクサバイト規模のデータが保存されています。
S3 Tablesの登場
昨年のre:InventでAWSはS3 Tablesを発表しました。S3 Tablesは、Apache Icebergを使用して表形式データを格納するためのフルマネージドサービスです。
S3 Tablesが解決する課題として、以下が挙げられます。
- 最適化されたパフォーマンス 通常のIcebergテーブルと比較して約10倍のスループット
- シンプルなセキュリティ制御 テーブルレベルでの制御をLake Formationで実現
- 自動ストレージ最適化 コンパクションとガベージコレクションが自動的に実行される
既存のIcebergテーブルもサポート
AWSは、S3 Tablesが最適な選択肢だと考えていますが、既にIcebergでデータレイクを構築している企業も多数存在します。Unified Studioは、既存のS3上のIcebergデータとGlue Data Catalog、さらには外部管理のIcebergカタログにも完全対応しています。
注目の新機能
①IAMベースのドメイン
Unified Studioのローンチ時は、人間のエンドユーザーアイデンティティとグループを使用したアクセス制御を前提としていました。しかし、多くの企業は過去10年以上にわたり、既存のIAMロールとフェデレーションに投資してきました。
Brian氏は「顧客は私たちと一緒にこの旅を進めたいと思っていましたが、すぐに生産的になりたいとも考えていました」と語っています。
新機能の詳細
IAMベースのドメインにより、既存のフェデレーション化されたIAMロールを使用して、わずか2分以内にUnified Studioでデータクエリを開始できるようになりました。オンボーディングプロセスを経ることなく、既に持っている権限で即座に作業を開始できます。
②新しいネイティブNotebook体験
Unified Studioの中核的な目標の一つは、ビルダーに使いやすく、没入感があり、やりがいのある体験を提供することです。新しいNotebook体験は、このバーを大きく引き上げています。
新しいNotebookの特徴
- 即座に起動 待ち時間なしで作業を開始
- 完全なポリグロット対応 Python、SQL、PyTorchで記述でき、これらの言語間でシームレスにデータを交換可能
- Spark Connectがビルトイン クラスターの起動を待つ必要がなく、データのニーズに応じて自動的にスケール
- 優れたビジュアライゼーション データの可視化が容易
- Gen AIアシスタンス用のデータエージェント コード生成やデバッグだけでなく、クラスターのインフラ設定のデバッグや、ユースケース全体の高度な計画も可能
③世界初のフルサーバーレスAirflow
プラットフォームのローンチ時、Unified Studioは再現可能なワークフローに対して優れたサポートを提供しており、Apache Airflowを基盤として採用していました。Amazon MWAAを活用し、その上にビジュアルエディタとオーサリング体験を構築していました。
従来の課題
しかし、顧客からは「環境をプロビジョニングして30分待ち、その後もずっと課金され続けるのは避けたい」という声が寄せられていました。
新しいサーバーレスAirflowの特徴
SageMaker Unified Studioに統合された完全サーバーレスのAirflowサービスが登場しました。世界初かつ唯一のフルサーバーレスAirflowサービスです。
- ビジュアルまたはコードでワークフローを作成
- スケジュールを設定すれば即座に実行開始
- すべての結果を確認して監視可能
- ワークフロー実行時間分のみ課金
これにより、ワークロードの管理が簡素化されるだけでなく、コスト管理も大幅に改善されます。
データメッシュアーキテクチャの実装
すべての顧客がデータアクセスの民主化を目指していますが、同時に適切な制御も維持する必要があります。多くの企業がデータメッシュアーキテクチャを採用しようとしていますが、Brian氏は率直に「正直に言うと、データメッシュアーキテクチャは非常に複雑です。構築した人でさえ理解していないことがあります」と語りました。
シンプルなアプローチの推奨
Brian氏のアドバイスは「これを過度に複雑にしないでください」というものです。目標は、コンプライアンスを確保しながら、データワーカーにイノベーションの自由を与えることです。
推奨されるアーキテクチャ
-
チームレベルの自律性
各チームは自身のアカウント内でSageMaker Unified Studioを使用し、チームメンバー間で自由にデータを共有できます。 -
エンタープライズカタログへの公開
データが準備できたら、エンタープライズカタログに公開します。他のチームはメタデータを確認し、アクセスをリクエストできます。 -
中央集権的なガバナンス
ガバナーはビジネス用語集を定義し、メタデータの割り当てを強制し、メタデータの可視性を制御できます。
重要なポイント
このアプローチにより、データエンジニアとデータサイエンティストの両方が作業を進められると感じられ、同時に、エンタープライズカタログに到達するすべてのデータに適切なデータ分類(機密データやPIIなど)が適用されることを保証できます。
まとめ
Amazon SageMaker Unified Studioは、データエンジニアリング、アナリティクス、AIワークフローを単一のプラットフォームで実現する統合環境です。
主要なメリット
- 単一の開発環境で一貫したツール体験
- レイクハウスアーキテクチャによる統合データアクセス
- エンドツーエンドのガバナンス
- IAMベースのドメインによる迅速なオンボーディング(2分以内)
- 新しいNotebook体験(ポリグロット対応、Gen AIアシスタンス)
- 世界初のフルサーバーレスAirflow(実行時間のみ課金)
特に、IAMベースのドメインとサーバーレスAirflowの登場により、既存の投資を活かしながら、迅速に最新のデータプラットフォームを導入できるようになりました。データドリブンな組織を目指す企業にとって、SageMaker Unified Studioは非常に有力な選択肢になりうるかもしれません。









