[UPDATE] Amazon SageMaker Catalog が AI エージェントによる自動データ分類機能を提供開始しました #AWSreInvent

[UPDATE] Amazon SageMaker Catalog が AI エージェントによる自動データ分類機能を提供開始しました #AWSreInvent

2025.12.05

クラウド事業本部の石川です。Amazon SageMaker Catalog にAI エージェントを活用した自動データ分類機能が追加されました。

https://aws.amazon.com/jp/about-aws/whats-new/2025/11/amazon-sagemaker-catalog-automatic-data-classification-ai-agents/

データレイクやデータメッシュの運用において、メタデータの付与・管理は非常に重要でありながら、手作業で行うには膨大な工数がかかる課題でした。今回発表された機能は、Amazon Bedrock の大規模言語モデルを活用し、データ資産に対してビジネス用語集(Business Glossary)から適切な用語を自動で推薦してくれます。

この新機能の概要やメリット、具体的なユースケースについて解説します。

AI エージェントを活用した自動データ分類機能とは

Amazon SageMaker Catalog の自動データ分類機能は、SageMaker Unified Studio 内で利用できる AI 推薦機能群の一部として提供されます。具体的には以下の 3 つの AI 推薦機能が利用可能です。

ビジネス用語(Glossary Terms)の自動推薦

テーブルのメタデータやスキーマ情報を分析し、組織内で定義されたビジネス用語集から最も関連性の高い用語を自動で推薦します。PII(個人識別情報)や PHI(医療情報)などの機密データ分類も含まれます。

ビジネス名(Business Name)の自動生成

データソースに対して、ビジネスユーザーにとって理解しやすい名前を自動生成します。

ビジネス説明(Business Description)の自動生成

データ資産の概要説明やサマリーを AI が自動生成します。

これらの機能はすべて Amazon Bedrock の大規模言語モデルによって実現されています。推薦された内容はデータプロデューサーが確認し、承認・編集・拒否を選択できるため、最終的な品質管理は人間が行う設計となっています。

メリット

手作業の大幅削減

従来、データカタログへのメタデータ付与は手作業で行う必要がありました。特に大規模な組織では数千〜数万のデータ資産が存在し、それぞれに適切なタグ付けを行うことは現実的ではありませんでした。AI による自動推薦により、この作業工数を大幅に削減できます。

メタデータの一貫性向上

組織内で定義済みのビジネス用語集から推薦が行われるため、担当者によるタグ付けのばらつきを防ぎ、データカタログ全体で一貫した用語体系を維持できます。

データ発見性の向上

適切なメタデータが付与されることで、ビジネスユーザーがデータを検索・発見しやすくなります。これにより、組織内のデータ活用が促進されます。

ガバナンス強化

PII や PHI などの機密データ分類が自動で推薦されるため、データガバナンスの観点からも漏れのない分類が実現できます。

データオンボーディングの高速化

新しいデータソースを追加する際の初期設定作業が高速化され、データの価値創出までの時間を短縮できます。

ユースケース

ユースケース 1: 大規模データレイク移行プロジェクト

オンプレミスのデータウェアハウスから AWS へ移行する際、数百〜数千のテーブルに対してメタデータを付与する必要があります。AI 推薦機能を活用することで、移行プロジェクトの工数を大幅に削減し、プロジェクト期間を短縮できます。

ユースケース 2: データメッシュ環境でのセルフサービス化

各ドメインチームがデータを公開する際、統一されたビジネス用語でタグ付けすることで、組織全体でのデータ発見性を担保できます。データプロデューサーは AI の推薦を確認するだけで済むため、セルフサービス型のデータ公開ワークフローを実現できます。

ユースケース 3: コンプライアンス対応

金融機関や医療機関など、規制対応が必要な業界では、機密データの特定と分類が必須です。AI による PII/PHI 分類の自動推薦により、漏れのないデータ分類を効率的に実現できます。

ユースケース 4: M&A 後のデータ統合

企業買収後、異なるデータカタログを統合する際に、統一されたビジネス用語集に基づいて既存データを再分類する作業を AI が支援します。

他との比較・使い分け

AWS Glue Data Catalog との比較

観点 AWS Glue Data Catalog SageMaker Catalog
主な用途 ETL パイプラインでのメタデータ管理 エンタープライズ全体のデータガバナンス
AI 推薦機能 なし あり(Bedrock 連携)
メタデータの種類 テクニカルメタデータ ビジネスメタデータ
対象ユーザー データエンジニア データエンジニア + ビジネスユーザー

AWS Glue Data Catalog は ETL パイプラインにおける技術的なメタデータ管理に特化しています。一方、SageMaker Catalog はビジネスユーザー向けのデータ発見性やガバナンスに重点を置いており、より上位レイヤーでのデータカタログ機能を提供します。

使い分けの指針

  • 技術的なメタデータ管理が中心: AWS Glue Data Catalog
  • ビジネスユーザー向けのデータ発見性・ガバナンスが必要: SageMaker Catalog
  • AI によるメタデータ自動付与が必要: SageMaker Catalog

なお、両者は排他的ではなく、AWS Glue Data Catalog をソースとして SageMaker Catalog で管理することも可能です。

制約事項

対応リージョン

AI 推薦機能はリージョンによって利用可能な機能が異なります。

ビジネス用語(Glossary Terms)推薦の対応リージョン

  • 米国東部(バージニア北部、オハイオ)
  • 米国西部(オレゴン)
  • アジアパシフィック(東京、ソウル、シンガポール、シドニー、ムンバイ)
  • 欧州(フランクフルト、アイルランド、ロンドン、パリ、ストックホルム)

東京リージョン対応は、ビジネス名・説明・用語すべての AI 推薦機能が利用可能です。

クォータ制限

月間の API 呼び出し回数に制限があります。

機能 月間上限
ビジネス説明生成 10,000 回
ビジネス名生成 50,000 回
用語集推薦 10,000 回

大規模なデータカタログを運用する場合は、AWS サポートへのクォータ引き上げ申請を検討してください。

ビジネス用語集の品質依存

AI 推薦は組織内で定義済みのビジネス用語集から候補を選定します。そのため、用語集自体の品質(用語の網羅性、定義の明確さ)が推薦精度に直接影響します。高品質な推薦を得るためには、事前にビジネス用語集を整備しておく必要があります。

レビュー必須の設計

AI が生成した推薦は自動的には公開されません。データプロデューサーが承認操作を行う必要があります。これは品質担保の観点から意図的な設計ですが、完全自動化を期待している場合は注意が必要です。

Amazon Bedrock の Cross Region Inference

一部のリージョンでは、Amazon Bedrock の Cross Region Inference エンドポイントを使用して AI 推薦を提供しています。用語集推薦機能については、すべての対応リージョンで Cross Region Inference が使用されます。

最後に

Amazon SageMaker Catalog の AI 自動データ分類機能は、データカタログ運用における大きな課題であったメタデータ付与の工数を大幅に削減する可能性を持っています。

特に、以下のような組織にとっては検討価値の高い機能です。

  • 大規模なデータレイク・データメッシュを運用している
  • データガバナンス強化が求められている
  • ビジネスユーザーのデータ活用を促進したい

一方で、AI 推薦の精度を高めるためには、事前にビジネス用語集を適切に整備しておくことが重要です。用語集が不十分な状態で導入しても、期待した効果は得られないでしょう。

SageMaker Unified Studio を活用したデータカタログ基盤の構築を検討されている方は、ぜひこの新機能を活用してみてください。

参考文献

https://docs.aws.amazon.com/sagemaker-unified-studio/latest/userguide/autodoc.html

この記事をシェアする

FacebookHatena blogX

関連記事