[UPDATE] Amazon SageMaker Catalog が AI エージェントによる自動データ分類機能を提供開始しました #AWSreInvent

AWS re:Invent 2025

2025.12.05

クラウド事業本部の石川です。Amazon SageMaker Catalog にAI エージェントを活用した自動データ分類機能が追加されました。
https://aws.amazon.com/jp/about-aws/whats-new/2025/11/amazon-sagemaker-catalog-automatic-data-classification-ai-agents/
データレイクやデータメッシュの運用において、メタデータの付与・管理は非常に重要でありながら、手作業で行うには膨大な工数がかかる課題でした。今回発表された機能は、Amazon Bedrock の大規模言語モデルを活用し、データ資産に対してビジネス用語集（Business Glossary）から適切な用語を自動で推薦してくれます。
この新機能の概要やメリット、具体的なユースケースについて解説します。
 AI エージェントを活用した自動データ分類機能とはAmazon SageMaker Catalog の自動データ分類機能は、SageMaker Unified Studio 内で利用できる AI 推薦機能群の一部として提供されます。具体的には以下の 3 つの AI 推薦機能が利用可能です。
 ビジネス用語（Glossary Terms）の自動推薦テーブルのメタデータやスキーマ情報を分析し、組織内で定義されたビジネス用語集から最も関連性の高い用語を自動で推薦します。PII（個人識別情報）や PHI（医療情報）などの機密データ分類も含まれます。
 ビジネス名（Business Name）の自動生成データソースに対して、ビジネスユーザーにとって理解しやすい名前を自動生成します。
 ビジネス説明（Business Description）の自動生成データ資産の概要説明やサマリーを AI が自動生成します。
これらの機能はすべて Amazon Bedrock の大規模言語モデルによって実現されています。推薦された内容はデータプロデューサーが確認し、承認・編集・拒否を選択できるため、最終的な品質管理は人間が行う設計となっています。
 メリット 手作業の大幅削減従来、データカタログへのメタデータ付与は手作業で行う必要がありました。特に大規模な組織では数千〜数万のデータ資産が存在し、それぞれに適切なタグ付けを行うことは現実的ではありませんでした。AI による自動推薦により、この作業工数を大幅に削減できます。
 メタデータの一貫性向上組織内で定義済みのビジネス用語集から推薦が行われるため、担当者によるタグ付けのばらつきを防ぎ、データカタログ全体で一貫した用語体系を維持できます。
 データ発見性の向上適切なメタデータが付与されることで、ビジネスユーザーがデータを検索・発見しやすくなります。これにより、組織内のデータ活用が促進されます。
 ガバナンス強化PII や PHI などの機密データ分類が自動で推薦されるため、データガバナンスの観点からも漏れのない分類が実現できます。
 データオンボーディングの高速化新しいデータソースを追加する際の初期設定作業が高速化され、データの価値創出までの時間を短縮できます。
 ユースケース ユースケース 1: 大規模データレイク移行プロジェクトオンプレミスのデータウェアハウスから AWS へ移行する際、数百〜数千のテーブルに対してメタデータを付与する必要があります。AI 推薦機能を活用することで、移行プロジェクトの工数を大幅に削減し、プロジェクト期間を短縮できます。
 ユースケース 2: データメッシュ環境でのセルフサービス化各ドメインチームがデータを公開する際、統一されたビジネス用語でタグ付けすることで、組織全体でのデータ発見性を担保できます。データプロデューサーは AI の推薦を確認するだけで済むため、セルフサービス型のデータ公開ワークフローを実現できます。
 ユースケース 3: コンプライアンス対応金融機関や医療機関など、規制対応が必要な業界では、機密データの特定と分類が必須です。AI による PII/PHI 分類の自動推薦により、漏れのないデータ分類を効率的に実現できます。
 ユースケース 4: M&A 後のデータ統合企業買収後、異なるデータカタログを統合する際に、統一されたビジネス用語集に基づいて既存データを再分類する作業を AI が支援します。
 他との比較・使い分け AWS Glue Data Catalog との比較

観点
AWS Glue Data Catalog
SageMaker Catalog


主な用途
ETL パイプラインでのメタデータ管理
エンタープライズ全体のデータガバナンス

AI 推薦機能
なし
あり（Bedrock 連携）

メタデータの種類
テクニカルメタデータ
ビジネスメタデータ

対象ユーザー
データエンジニア
データエンジニア + ビジネスユーザー

AWS Glue Data Catalog は ETL パイプラインにおける技術的なメタデータ管理に特化しています。一方、SageMaker Catalog はビジネスユーザー向けのデータ発見性やガバナンスに重点を置いており、より上位レイヤーでのデータカタログ機能を提供します。
 使い分けの指針技術的なメタデータ管理が中心: AWS Glue Data Catalog
ビジネスユーザー向けのデータ発見性・ガバナンスが必要: SageMaker Catalog
AI によるメタデータ自動付与が必要: SageMaker Catalog
なお、両者は排他的ではなく、AWS Glue Data Catalog をソースとして SageMaker Catalog で管理することも可能です。
 制約事項 対応リージョンAI 推薦機能はリージョンによって利用可能な機能が異なります。
ビジネス用語（Glossary Terms）推薦の対応リージョン
米国東部（バージニア北部、オハイオ）
米国西部（オレゴン）
アジアパシフィック（東京、ソウル、シンガポール、シドニー、ムンバイ）
欧州（フランクフルト、アイルランド、ロンドン、パリ、ストックホルム）
東京リージョン対応は、ビジネス名・説明・用語すべての AI 推薦機能が利用可能です。
 クォータ制限月間の API 呼び出し回数に制限があります。


機能
月間上限


ビジネス説明生成
10,000 回

ビジネス名生成
50,000 回

用語集推薦
10,000 回

大規模なデータカタログを運用する場合は、AWS サポートへのクォータ引き上げ申請を検討してください。
 ビジネス用語集の品質依存AI 推薦は組織内で定義済みのビジネス用語集から候補を選定します。そのため、用語集自体の品質（用語の網羅性、定義の明確さ）が推薦精度に直接影響します。高品質な推薦を得るためには、事前にビジネス用語集を整備しておく必要があります。
 レビュー必須の設計AI が生成した推薦は自動的には公開されません。データプロデューサーが承認操作を行う必要があります。これは品質担保の観点から意図的な設計ですが、完全自動化を期待している場合は注意が必要です。
 Amazon Bedrock の Cross Region Inference一部のリージョンでは、Amazon Bedrock の Cross Region Inference エンドポイントを使用して AI 推薦を提供しています。用語集推薦機能については、すべての対応リージョンで Cross Region Inference が使用されます。
 最後にAmazon SageMaker Catalog の AI 自動データ分類機能は、データカタログ運用における大きな課題であったメタデータ付与の工数を大幅に削減する可能性を持っています。
特に、以下のような組織にとっては検討価値の高い機能です。
大規模なデータレイク・データメッシュを運用している
データガバナンス強化が求められている
ビジネスユーザーのデータ活用を促進したい
一方で、AI 推薦の精度を高めるためには、事前にビジネス用語集を適切に整備しておくことが重要です。用語集が不十分な状態で導入しても、期待した効果は得られないでしょう。
SageMaker Unified Studio を活用したデータカタログ基盤の構築を検討されている方は、ぜひこの新機能を活用してみてください。
 参考文献https://docs.aws.amazon.com/sagemaker-unified-studio/latest/userguide/autodoc.html

[UPDATE] Amazon SageMaker Catalog が AI エージェントによる自動データ分類機能を提供開始しました #AWSreInvent

AI エージェントを活用した自動データ分類機能とは

ビジネス用語（Glossary Terms）の自動推薦

ビジネス名（Business Name）の自動生成

ビジネス説明（Business Description）の自動生成

メリット

手作業の大幅削減

メタデータの一貫性向上

データ発見性の向上

ガバナンス強化

データオンボーディングの高速化

ユースケース

ユースケース 1: 大規模データレイク移行プロジェクト

ユースケース 2: データメッシュ環境でのセルフサービス化

ユースケース 3: コンプライアンス対応

ユースケース 4: M&A 後のデータ統合

他との比較・使い分け

AWS Glue Data Catalog との比較

使い分けの指針

制約事項

対応リージョン

クォータ制限

ビジネス用語集の品質依存

レビュー必須の設計

Amazon Bedrock の Cross Region Inference

最後に

参考文献

関連記事

AWSで探す

注目のテーマ

プロダクトやサービスで探す

特集やシリーズから探す

EVENTS

観点	AWS Glue Data Catalog	SageMaker Catalog
主な用途	ETL パイプラインでのメタデータ管理	エンタープライズ全体のデータガバナンス
AI 推薦機能	なし	あり（Bedrock 連携）
メタデータの種類	テクニカルメタデータ	ビジネスメタデータ
対象ユーザー	データエンジニア	データエンジニア + ビジネスユーザー

機能	月間上限
ビジネス説明生成	10,000 回
ビジネス名生成	50,000 回
用語集推薦	10,000 回