クラスメソッド データアナリティクス通信(AWSデータ分析編) – 2024年8月号
Amazon Redshift
APIの変更点
2024/07/22 - Redshift Serverless - 10 updated api methods
Redshift Serverless ワークグループにデュアルスタックサポートを追加します。(what’s newでは、まだ観測していません。)
Amazon Glue
新機能・アップデート
2024/07/09 - AWS Glue Studio が、ノーコードのデータ準備オーサリングエクスペリエンスの提供を開始
AWS Glue Studio のVisual ETL は、AWS Glue for Spark でデータ統合ジョブを大規模に実行するスプレッドシートスタイルの UI を備えた、ノーコードデータプリパレーション機能の「data preparation authoring」の一般提供を発表しました。
Visual ETLのオーサリング画面で「Data Preparation」レシピを追加するとGlueBrewの「レシピ」を新しいAWS Glue DataBrewUIにインポートし、引き続きAWS Glue Studioでそれらをオーサリングできます。この機能では、あらかじめ用意されている何百種類もの変換の中から選択して、データ準備タスクを自動化でき、コードを記述する必要はありません。
2024/07/09 - AWS Glue データカタログが Apache Iceberg テーブルの統計情報の生成を新たにサポート
AWS Glue Data Catalogは、Apache Icebergテーブルのカラムレベルの集計統計情報を生成する機能をサポートするようになりました。この統計情報は、Amazon Redshift Spectrumのコストベースオプティマイザ(CBO)と統合されており、クエリパフォーマンスの向上とコスト削減の可能性があります。
Apache Icebergは、null値、最小値、最大値などの統計情報をサポートしていますが、これまでは個別値の数(NDV)などの集計統計情報を生成する機能がありませんでした。今回のアップデートにより、Apache Icebergテーブルのカラムに対してNDVが収集され、Apache Iceberg Puffinファイルに保存されるようになりました。Amazon Redshift Spectrumはこれらの集計統計情報を使用して、クエリを最適化します。具体的には、クエリ処理の早い段階で最も制限したフィルタを適用することで、メモリ使用量を抑え、読み込むレコード数を減らします。これにより、クエリの結果を提供するための効率が向上します。
APIの変更点
2024/07/10 - AWS Glue - 5 updated api methods
レシピノードにレシピステップのサポートを追加しました。
Amazon QuickSight
新機能・アップデート
2024/07/10 - Amazon QuickSight が SPICE JOIN の制限を 20 倍に引き上げ
Amazon QuickSightは、SPICEデータセットを結合する際のテーブルサイズ制限を1GBから20GBに引き上げました。このアップデートにより、QuickSightユーザーは、より大規模なデータセットを扱うことが可能となり、データ準備の効率が大幅に向上します。
2024/07/15 - Amazon QuickSight がコントロールのパフォーマンスを改善
Amazon QuickSightのダッシュボードでユーザーがコントロール(フィルターやパラメータなど)を操作する際、各変更ごとに関連するすべてのコントロールが再読み込みされるため、待ち時間が発生していました。しかし、この新機能により、コントロールの読み込みがバックグラウンドで行われるようになり、ユーザーはほとんどのコントロールに即座にアクセスできるようになります。
APIの変更点
2024/07/12 - Amazon QuickSight - 3 new 9 updated api methods
Vegaと呼ばれるデータ可視化ライブラリのコントロールオプションとトピックスのレビュー回答をサポートしました。
Amazon DataZone
新機能・アップデート
2024/07/03 - Amazon DataZone できめ細かなアクセス制御が導入
データ所有者がより細かなレベルでデータを制御できる「fine-grained access control」機能を導入しました。この新機能により、行レベルおよび列レベルでのきめ細かいアクセス制御が可能になりました。
-
行フィルター
データセット全体ではなく、特定のデータレコードへのアクセスを制限できます。例えば、複数の地域のデータを含むテーブルがある場合、異なるプロジェクトに対して異なる地域の行へのアクセスを許可することができます。
-
列フィルター
特定の列へのアクセスを制限できます。これは個人を特定できる情報(PII)を含む列などに特に有用で、ユーザーが必要最小限のデータにのみアクセスできるようにします。
-
柔軟な制御
データ所有者は、Amazon DataZoneポータル内で行と列のフィルターを作成し、ユーザーがデータアセットへのアクセスを要求した際に適切なフィルターを適用して承認することができます。
-
セキュリティの強化
Amazon DataZoneはAWS Lake FormationとAmazon Redshiftを使用してこれらのフィルターを適用し、承認された行と列のみにユーザーがアクセスできるようにします。
この新機能により、Amazon DataZoneユーザーは組織の境界を越えて、より安全かつ効果的にデータのカタログ化、発見、分析、共有、およびガバナンスを行うことができるようになりました。データのセキュリティと柔軟性が向上し、必要な情報のみを適切なユーザーと共有することが可能になります。
APIの変更点
2024/07/22 - Amazon DataZone - 5 new 3 updated api methods
DefaultDataLake ブループリントの AWS Lake Formation ハイブリッドアクセスモードでアセットの S3 ロケーションを登録できるようになりました。また、アセットフィルターのCRUD操作のサポートしました。
2024/07/25 - Amazon DataZone - 5 new 3 updated api methods
SDKにGetEnvironmentCredentialsオペレーションを導入。
AWS Clean Rooms
新機能・アップデート
2024/07/25 - AWS Clean Rooms launches new capabilities for entity resolution, ML modeling, privacy, and analysis controls
AWS Clean Roomsは以下の4つの新機能を発表しました。
-
AWS Entity Resolutionの一般提供
AWS Entity ResolutionがAWS Clean Roomsにネイティブに統合され、異なるデータソース間でのエンティティのマッチングが容易になります。ルールベースまたはデータサービスプロバイダーを使用したマッチングにより、広告キャンペーンの計画、ターゲティング、および測定を強化できます。
-
プライバシー制御の強化
新しいプライバシー制御により、コラボレーション内でのデータ分析の柔軟性が向上しました。特定の出力カラムをカスタムSQLデータ分析から除外することができ、データ保護が強化されます。また、どのコラボレーターが分析結果を受け取るかを簡単に選択することが可能です。
-
コラボレーターへの分析結果の配信設定
新しい機能により、どのコラボレーターが分析結果を受け取るかを設定できるようになり、データの共有範囲を細かく制御し、必要なパートナーだけが結果を受け取ることができます。
-
類似モデル用シードデータ生成のためのSQLクエリ
AWS Clean Rooms MLを使用して、SQLクエリをシードデータソースとして利用し、類似モデルを生成することができます。マーケティングキャンペーンやその他のビジネスユースケースにおいて、ターゲットオーディエンスの類似セグメントを効果的に特定することが可能です。
APIの変更点
2024/07/23 - AWS Clean Rooms Service - 13 new 5 updated api methods
このリリースでは、AWS Clean RoomsのIDネームスペースの関連付けとIDマッピングテーブルの一部として、IDネームスペースとIDマッピングワークフローリソースを関連付けるためのAWS Entity Resolution統合が追加されます。また、ID マッピングテーブルの保護を管理するための新しい ID_MAPPING_TABLE 分析ルールが導入されます。
2024/07/24 - AWS Clean Rooms Service - 4 new 14 updated api methods
AWSクリーンルームの3つの機能強化: 禁止された出力カラム、柔軟な結果レシーバー、シードとしてのSQL。
AWS Clean Rooms ML
APIの変更点
2024/07/23 - AWS Clean Rooms ML - 2 updated api methods
オーディエンス生成ジョブのシードオーディエンスのソースとしてSQLクエリを追加します。
Amazon OpenSearch Service
新機能・アップデート
2024/07/01 - Amazon OpenSearch Ingestion adds support for ingesting data from self-managed sources
自己管理のOpenSearch、Elasticsearch、Apache Kafkaクラスターからデータを取り込み、Amazon OpenSearch Serviceに移行することが可能になりました。これにより、Logstashなどのサードパーティツールを使用せずにデータを移行できるようになります。
下記のブログでは、OpenSearch Ingestionを使ってサーバレスにALBのログをOpenSearch Serviceに連携を試しています。
2024/07/09 - Amazon OpenSearch Service がログ分析のための自然言語クエリ生成を発表
Amazon OpenSearch Serviceは、OpenSearch DashboardsのLog Explorerにおいて、AIを活用した自然言語クエリ生成のサポートを追加しました。この機能により、ユーザーは平易な英語でログ探索の質問を行うことができ、その質問は自動的に関連するPiped Processing Language (PPL)のクエリに変換され、要求されたデータを取得するために実行されます。
APIの変更点
2024/07/09 - Amazon OpenSearch Service - 7 updated api methods
Amazon OpenSearch Service ドメインの自然言語クエリ処理機能を有効化または無効化するためのサポートが追加と、セットアップまたはティアダウンの現在の状態を可視化できるようになりました。
Amazon OpenSearch Serverless
新機能・アップデート
2024/07/09 - Amazon OpenSearch Serverless が時系列ワークロードのサポートを最大 30 TB まで拡大
時系列コレクションで最大 30 TB のデータのワークロードをサポートするようになりました。
-
時系列ワークロードのサポート拡大
Amazon OpenSearch Serverlessは、時系列データコレクションのサポートを30TBまで拡大しました。これにより、ログ分析、セキュリティ分析、リアルタイムアプリケーションモニタリングなど、データ集約型のユースケースに対応できるようになりました。
-
OpenSearch Compute Units (OCUs)
OpenSearch Serverlessのコンピューティングキャパシティは、OpenSearch Compute Units (OCUs)で測定されます。新しいリリースでは、インデックス作成と検索操作を最大500 OCUまで独立してスケール可能になりました。これにより、ユーザーはコスト管理をしやすくなり、リソースの効率的な利用が可能です。
-
データハイドレーションメカニズム
新しいデータハイドレーションメカニズムが導入され、スケーリングの改善とクエリ遅延の低減が実現されました。このメカニズムにより、頻繁にアクセスされるデータがホットストレージに保存され、クエリ応答時間が最適化されます。
-
リアルタイムのOCU使用量モニタリング
CloudWatchメトリクスを使用して、リアルタイムでOCUの使用状況を監視できます。これにより、ワークロードのリソース消費をより良く把握し、必要に応じてキャパシティ設定を調整することが可能です。
2024/07/15 - Amazon OpenSearch Serverless はスマートキャッシュによりスピードと効率を向上
Amazon OpenSearch Serverlessに新たに導入されたスマートキャッシング機能は、データの自動取得とインテリジェントな管理を実現し、データ取得の高速化、ストレージ使用の効率化、そしてコスト削減を可能にします。このキャッシングメカニズムは、特に大規模なデータを扱う企業にとって、大きなメリットをもたらします。
Amazon MWAA
新機能・アップデート
2024/07/09 - Amazon MWAA が Apache Airflow バージョン 2.9 のサポートを開始
Apache Airflow バージョン 2.9 環境を作成できるようになりました。Apache Airflow 2.9 は、ワークフローのオーサリング、スケジュール、および監視を支援する人気のオープンソースツールの最新のマイナーバージョンです。
最後に
今月号では、AWS Glue Studio の Visual ETL が、GlueBrewのUIで直接データ変換できる様になり、GlueBrewユーザーは、これまで以上の大きなデータに対して変換できようになります。
データ利活用をするのに欠かせない、Amazon DataZone と AWS Clean Rooms のアップデートが著しく、 この2つのサービスの違いが明確になってきたと感じます。Amazon DataZoneはガバナンスを効かせながらデータのカタログ化、発見、共有、管理を容易にするデータ管理サービスを提供します。一方、AWS Clean Roomsは異なる組織間でデータを共有せずに、安全に集合データセットを分析・コラボレーションしてデータ利活用するためのサービスです。
話は変わりますが、弊社日比谷オフィスで開催された Classmethod Odyssey にて 「生成AI x データ分析基盤」 をテーマに 「データ分析を支える技術 生成AI再入門」 というタイトルで登壇しました。
生成AIは膨大なデータから学習し、新しいコンテンツを生成する能力を持っています。一方、データ分析は既存のデータから意味のあるインサイトを導き出します。この2つの技術を組み合わせることで、データ分析の精度と範囲の向上、分析プロセスの効率化、新たな洞察の創出の提供など、そのあり方が大きく変わりつつあります。ご覧いただけたら幸いです。