[アップデート] AWS Clean RoomsがデータソースとしてSnowflakeとAmazon Athenaをサポートしました #AWSreInvent
データ事業本部 インテグレーション部 機械学習チームの鈴木です。
AWS Clean RoomsがデータソースとしてSnowflakeとAmazon Athenaをサポートするようになったアナウンスがありました。
AWS Clean Roomsとは
企業間などで、データセットを完全に開示できないものの、互いにその個人情報を特定されない粒度の特徴を組み合わせることで有用なインサイトを得られるデータ活用のユースケースで使われるサービスです。
『AWS 入門ブログリレー 2024』でも紹介していますので、興味がある方はご確認ください。
うれしいこと
これまでAWS Clean RoomsはGlueデータカタログにあるテーブルを、Clean Roomsのテーブルとして設定することで、コラボレーション内でデータを共有することができていましたが、データはS3上のものだけが対象でした。
今回のアップデートにより、Snowflakeのデータに対応したほか、Amazon Athenaを介することでLake Formationと連携したよりきめ細やかな制御を行うことができるようになりました。
※なお、Amazon Athenaをデータソースとしたことで、フェデレーテッドクエリで取得したデータもClean Roomsで使えることが期待されますが、ドキュメントには明記されていなかったので確認できましたら追記します。
SnowflakeにもData Clean Roomの機能がありますが、AWS側のユーザーでAWS内のデータと分析をする際に便利そうです。
設定方法の確認
AWS Clean Roomsのテーブルの作成より、新しく対応したデータソース向けのテーブル定義ができました。
AWSブログではSnowflakeを中心に紹介されていたのでAthenaを選んだ際の設定項目を軽く確認しました。
ワークグループを指定できるようになっていますね。
なお、以前のコンソール画面ですがS3をデータソースにする場合は以下のような設定方法でした。
最後に
AWS Clean RoomsがデータソースとしてSnowflakeとAmazon Athenaをサポートするようになったアナウンスがあったためご紹介しました。
Amazon Athenaについてはまたフェデレーテッドクエリが可能かどうかも確認できればと思います。