![[UPDATE] AWS Clean Rooms がプライバシー保護型合成データセット生成機能をサポートしました #AWSreInvent](https://images.ctfassets.net/ct0aopd36mqt/33a7q65plkoztFWVfWxPWl/a718447bea0d93a2d461000926d65428/reinvent2025_devio_update_w1200h630.png?w=3840&fm=webp)
[UPDATE] AWS Clean Rooms がプライバシー保護型合成データセット生成機能をサポートしました #AWSreInvent
クラウド事業本部の石川です。AWS Clean Rooms ML のアップデートがあり、プライバシー保護型の合成データセット生成機能がサポートされました。本記事では、この新機能について解説します。
プライバシー保護型合成データセット生成機能とは
機械学習モデルを構築する際、データサイエンティストは「データの有用性」と「プライバシー保護」の間で常にジレンマを抱えてきました。高精度なモデルを訓練するには、詳細で質の高いデータへのアクセスが不可欠です。しかし、複数の組織間でユーザーレベルのイベントデータを共有することは、プライバシーに関する懸念やコンプライアンス上の課題を引き起こします。
例えば「どのような特性を持つ顧客がコンバージョンする可能性が高いか?」といった問いに答えようとしても、個人レベルのシグナルを使った学習は、プライバシーポリシーや規制要件と衝突することが多いのが現状でした。
synthetic datasetとは、実データと同じような分析結果やモデルが作れるという有用性を保ちながら、個人のプライバシーを侵害するリスクを排除するために人工的に作り出された「合成されたデータセット」になります。
AWS Clean Roomsでは、機密性の高い顧客データを共有せずに、共同で機械学習モデルをトレーニングし、キャンペーン最適化や不正検出などのユースケースを実現できるようになります。
技術的なしくみ
この機能は、高度な機械学習技術を使用して、元データの統計的特性を維持しながら、元のソースデータから個人を非識別化した新しいデータセットを生成します。
従来のマスキングなどの匿名化技術では、データセット内の個人を再識別するリスクが残っていました。例えば、郵便番号と生年月日のような属性を知っていれば、国勢調査データと照合して個人を特定できてしまう可能性があります。
合成データセット生成は、根本的に異なるアプローチでこのリスクに対処します。
- システムが元データセットの本質的な統計パターンを学習するモデルを訓練
- 元データセットから値をサンプリングし、モデルを使用して予測値列を予測することで合成レコードを生成
- モデル容量削減技術を使用して、学習データ内の個人に関する情報をモデルが記憶するリスクを軽減
生成された合成データセットは、元データと同じスキーマと統計的特性を持ち、分類モデルや回帰モデルの学習に適しています。
プライバシーパラメータの制御
この機能を使用する組織は、以下のプライバシーパラメータを制御できます。
ノイズ量の設定
合成データに適用するノイズの量を指定
メンバーシップ推論攻撃に対する保護レベル
特定の個人のデータが学習セットに含まれていたかどうかを敵対者が判断しようとする攻撃への保護レベルを設定
品質メトリクスの提供
合成データセット生成後、AWS Clean Rooms は以下の2つの重要な観点から詳細なメトリクスを提供します。
| メトリクス | 説明 |
|---|---|
| Fidelity Score(忠実度スコア) | KLダイバージェンスを使用して、合成データが元データセットにどれだけ類似しているかを測定 |
| Privacy Score(プライバシースコア) | メンバーシップ推論攻撃からどの程度保護されているかを定量化 |
メリット
プライバシーを保護しながらデータコラボレーションが可能
元データを直接共有することなく、複数の組織が協力してMLモデルを訓練できます。航空会社とホテルブランドが共同プロモーションのために協力する場合など、両組織が機密性の高い消費者データを共有することなく、合成版のデータセットを使用してモデルを訓練できます。
従来の匿名化技術を超えた保護
マスキングなどの従来技術は再識別リスクが残りますが、合成データ生成は統計パターンを学習した新しいデータを生成するため、より強力なプライバシー保護を実現します。
コンプライアンス対応の簡素化
詳細なメトリクスにより、コンプライアンスチームが合成データセットの品質を評価しやすくなります。忠実度スコアとプライバシースコアを使って、組織の要件を満たしているかを確認できます。
既存のワークフローとの統合
生成された合成データセットは標準的なMLフレームワークで動作し、ワークフローを変更することなく既存のモデル開発パイプラインに統合できます。
柔軟な課金設定
合成データセット生成の費用は、Synthetic Data Generation Units(SDGUs)として請求されます。この費用は「payer setting」として設定可能で、コラボレーションのどのメンバーでも費用を負担することに同意できます。
ユースケース
キャンペーン最適化
広告主とパブリッシャーが、顧客データを直接共有することなく、コンバージョン予測モデルを共同で訓練できます。
具体例
ある航空会社が独自のアルゴリズムを使用して、ホテルブランドと協力して高価値顧客への共同プロモーションを提供したい場合、AWS Clean Rooms ML を使用して、生データを公開することなく合成版の共同データセットを生成してモデルを訓練できます。
不正検知
金融機関が、機密性の高い取引データを共有することなく、不正検知モデルを改善できます。複数の金融機関が合成データを使用してパターンを共有することで、新しい不正パターンの検出精度を向上させることができます。
医療研究
患者データのプライバシーを保護しながら、機械学習モデルを訓練できます。これは特に、複数の医療機関間でのデータ共有が規制上困難な場合に有効です。
保険料最適化
保険会社が、顧客の機密データを保護しながら、より正確な保険料設定モデルを開発できます。
制約事項
データサイズの制限
| 制約項目 | 最小値 | 最大値 |
|---|---|---|
| 入力行数 | 1,500行 | 2,500,000行 |
| 入力カラム数 | 5カラム | 1,000カラム |
| カテゴリカル予測カラムのユニーク値 | - | 100 |
同時実行の制限
アカウントあたりの同時実行中(Pending/In-progress)の合成MLIC生成ジョブ数 2件(引き上げ可能)
対応するモデルタイプ
初期リリースでは、テーブルデータに対する分類モデルと回帰モデルの訓練のみをサポートしています。
利用可能リージョン
AWS Clean Rooms ML が利用可能な全ての商用リージョンで利用可能です。
トレーニングインスタンスの制限
カスタムモデルの訓練に使用できるトレーニングインスタンスには、インスタンスタイプごとにアカウントあたりの制限があります。デフォルトでは多くのインスタンスタイプが 0 に設定されていますが、Service Quotas から引き上げをリクエストできます。
以下のインスタンスタイプはデフォルトで利用可能です:
ml.m5.2xlarge: 3インスタンスml.m5.4xlarge: 3インスタンスml.m5.12xlarge: 3インスタンス
GPU インスタンス(g4dn、g5、g6シリーズ)や大型インスタンスを使用する場合は、事前に Service Quotas からの引き上げが必要です。
課金について
合成データセット生成は使用量に基づいて個別に課金されます。データセットのサイズと複雑さに応じて Synthetic Data Generation Units(SDGUs)として計算され、生成に使用したコンピューティングリソースに対してのみ課金されます。
最後に
AWS Clean Rooms ML の合成データセット生成機能は、プライバシー強化型機械学習における重要な進歩です。組織は、機密性の高いユーザーレベルのデータの価値を解放しながら、個人に関する機密情報が漏洩するリスクを軽減できます。
特に以下のようなシナリオで威力を発揮します:
- 複数組織間でのデータコラボレーション
- 規制の厳しい業界でのML活用
- プライバシーを重視するユースケース
広告キャンペーンの最適化、保険料のパーソナライズ、不正検知システムの強化など、様々なユースケースにおいて、プライバシー保護型の合成データセット生成により、個人のプライバシーを尊重しながらデータコラボレーションを通じてより正確なモデルを訓練することが可能になります。
Apache Iceberg を使ったデータレイクとの組み合わせなど、モダンなデータ基盤との統合も検討に値するでしょう。プライバシー保護とデータ活用のバランスを取りながら、MLモデルの精度向上を目指す組織にとって、非常に有用な機能だと思います。
合わせて読みたい









