クラスメソッド データアナリティクス通信(AWSデータ分析編) – 2024年9月号
クラスメソッドの石川です。日々AWSのアナリティクス関連サービスのアップデートとそのブログをご紹介します。
今月は、AWS Glue の データカタログビューや Glue Data QualityのAnomaly Detectionが一般提供の開始しました。Amazon QuickSightはネストされたフィルターが使えるようになり、組み込みダッシュボードの共有ビューがサポートしました。
他にもアップデートがあるので紹介します!
Amazon Redshift / RedshiftServerless
新機能・アップデート
2024/08/01 - Amazon Redshift が AWS IAM アイデンティティセンターでのシングルサインオンをサポートするドライバーをリリース
Amazon RedshiftのJDBC/ODBC/Python ドライバーがシングルサインオンをサポートしました。Microsoft Entra Id、OktaなどのID プロバイダーを AWS IAM アイデンティティセンターと統合することでJDBC/ODBC/Python ドライバーを介して企業 ID を使用してデータウェアハウスに接続できるようになります。
2024/08/14 - Amazon Redshift Query Editor V2 がクエリインポートのサポートを開始
Amazon Redshift は、Query Editor V2 のクエリインポート機能のサポートしました。単一ファイル、複数のファイル、またはフォルダ全体をインポートできます。
以下の例では、フォルダ全体をインポートする例です。右のQueriesを選択、[Import Query]を押して、
フォルダをドラックアンドドロップします。
2024/08/14 - Amazon Redshift Serverless が AWS PrivateLinkをサポートしました
Amazon Redshift Serverless に接続するためのAWS PrivateLink (インターフェイス VPC エンドポイント)のサポートを開始しました。
Amazon Glue
新機能・アップデート
2024/08/08 - Amazon Athena および Amazon Redshift で使用する AWS Glue データカタログビューの一般提供を開始
AWS Glue データカタログビューの一般提供を発表しました。AWS Glue データカタログビューは、Amazon Athena と Amazon Redshift から AWS Glue データカタログにマルチエンジン SQL ビューを作成したり、そのアクセス権限を付与したり、それに対してクエリを実行したりできる新機能です。AWS Glue データカタログビューを使用すると、AWS リージョン、アカウント、組織全体で、ビューを作成、共有、クエリできます。
Athena と Redshift のそれぞれのクエリエンジンでビュー(Athenaの場合は、create protected multi dialect view
)を作成し、そのビューをLake Formationで一元管理をすることで、ビューが参照しているテーブルへのアクセス許可がなくてもビューに対してアクセス管理ができるようになります。
2024/08/08 - AWS Glue が ML を活用した新しい Glue データ品質機能の一般提供開始を発表
AWS Glue は、ML を活用した異常検出アルゴリズムを使用して、見つけにくいデータ品質の問題や異常を検出する新しい AWS Glue Data Quality(Glue DQ) 機能の一般提供開始を発表しました。この機能は、データ品質に関する問題を事前に特定して解決するのに役立ちます。
下記の動画では、recordCountとColumnCountを異常検知の対象として設定し、レコード数の変動を検知させるデモが参照できます。
APIの変更点
2024/08/07 - AWS Glue - 6 new 6 updated api methods
AWS Glue Data Quality Anomaly Detectionに関するアップデートです。GlueがML ベースのソリューションを用いてユーザーが明示的にルールを定義していないデータの異常を検出する新しい機能です。
2024/08/08 - AWS Glue - 15 updated api methods
Glue データ カタログ ビューの作成または更新時に検証ステータスを取得するためのサポートが追加されました。また、BasicCatalogTarget パーティション キーのサポートも追加されました。
2024/08/13 - AWS Glue - 1 updated api methods
Glue GetTables に AttributesToGet パラメータのサポートを追加されました。
2024/08/21 - AWS Glue - 12 updated api methods
CreateJob および UpdateJob API にオプション フィールド JobRunQueuingEnabled を追加します。
Amazon QuickSight
新機能・アップデート
2024/08/07 - Amazon QuickSight にネストされたフィルターが使えるようになりました
ネストフィルターという新しい高度なフィルタータイプが使えるようになりました。作成者はネストフィルターを使用して、データセット内の 1 つのフィールドを使用してデータセット内の別のフィールドをフィルターできます。SQL では相関サブクエリと呼ばれ、ショッピング分析ではマーケットバスケット分析と呼ばれます。
例えば、スーパーマーケットの「販売取引」と「顧客属性」に関する情報を含むデータセットがあったします。「コーヒー」を買った顧客の販売取引を取得したい場合、「販売取引」を「コーヒー」でフィルタした結果と「顧客属性」を結合して顧客一覧を取得した後、顧客一覧と「販売取引」を結合して結果を得ます。フィルタ条件は「コーヒー」ですが、取得したいのは顧客一覧であったり、顧客一覧と「販売取引」を結合して得られた「販売取引」であり、この点がネストフィルターの名前の由来と考えられます。ETL (抽出、変換、ロード) ジョブ、複雑な SQL 操作、データパイプラインの更新に依存することなくデータを分析できるようになります。
2024/08/26 - Amazon QuickSight では、組み込みダッシュボードの共有ビューがサポートされるようになりました
組み込みダッシュボードの共有ビューがサポートされるようになりました。この機能により、開発者は組み込みの QuickSight ダッシュボードを使用してアプリケーションでより多くのコラボレーション機能を有効にできます。さらに、匿名ユーザーのブックマークなどのパーソナライズ機能を有効にできます。
APIの変更点
2024/08/22 - Amazon QuickSight - 8 updated api methods
Authorに対する明示的なクエリと埋め込みユーザーのダッシュボード表示共有をサポートしました。
Amazon DataZone
新機能・アップデート
2024/08/02 - Amazon DataZone が PCI DSS 認証を取得
Amazon DataZone は、Payment Card Industry Data Security Standard (PCI DSS ) コンプライアンス認証を取得しました。これは、クレジットカード決済を扱う金融業界および保険業界のお客様が必要とする、支払いアカウントデータを安全に処理するための PCI Security Standards Council によって定められた要件を満たしていることを示しています。
2024/08/05 - Amazon DataZone が、データ製品によるビジネスユースケースベースのグループ化を提供
Amazon DataZoneは「Data Product」を導入しました。これまでのアセット単位から「Data Product」というグループ単位でパブリッシュ、ディスカバリ、サブスクライブもできるようになりました。データ資産を特定のビジネスユースケースに合わせて明確に定義された自己完結型のパッケージにグループ化して管理できるようになります。「Data Product」を使用すると、顧客は検出とサブスクリプションのプロセスを簡素化し、ビジネス目標に合わせて調整し、個々の資産を処理する際の冗長性を削減できます。
2024/08/13 - Amazon DataZone がドメインユニットと認証ポリシーを開始
Amazon DataZoneは、ドメインユニットと承認ポリシーという新しいデータガバナンス機能を発表しました。これにより、ビジネスユニットやチームレベルの組織構築が可能になり、ニーズに応じたポリシー管理が実現します。ドメインユニットを使用すると、ユーザーは関連するデータ資産やプロジェクトを効率的に整理・検索できます。また、承認ポリシーにより、プロジェクトや用語集の作成、コンピューティングリソースの使用に関するアクセス制御が可能になります。これらの機能は、組織全体のデータガバナンスを強化し、効果的なデータ管理を支援します。
APIの変更点
2024/08/05 - Amazon DataZone - 5 new 15 updated api methods
「Data Product」機能がリリースされます。「Data Product」を使用すると、データ アセットをまとまりのある自己完結型のユニットにグループ化できるため、データ作成者にとっては公開しやすくなり、データ コンシューマーにとっては検索やアクセスが容易になります。
2024/08/30 - Amazon DataZone - 11 new 7 updated api methods
データドメイン内の組織化のためのドメインユニットの新しいガバナンス機能と、より厳密な制御のための承認ポリシーが追加されました。
Amazon OpenSearch Serverless
新機能・アップデート
2024/08/29 - Amazon OpenSearch Service now supports Graviton3 (C7g, M7g, R7g, R7gd) instances
Amazon OpenSearch Service は、AWS Graviton3 インスタンスのサポートを開始しました。Graviton2 ベースのインスタンスに比べて最大 25% 優れたパフォーマンスを実現します。Service Graviton3 インスタンスは、すべての OpenSearch バージョンと Elasticsearch (オープンソース) バージョン 7.9 および 7.10 をサポートしています。
APIの変更点
2024/08/20 - OpenSearch Service Serverless - 2 updated api methods
非アクティブ コレクションおよび VPCE の BatchGetVPCEResponse の BatchGetCollectionResponse に FailureCode と FailureMessage を追加しました。
Amazon EMR
新機能・アップデート
2024/08/08 - Amazon EMR 7.2 が Apache Spark 3.5.1 のサポートを開始
Amazon EMR 7.2 リリースが一般提供を開始され、Apache Spark 3.5.1、Trino 436、PrestoDB 0.285、Apache Iceberg 1.5.0、Delta 3.1 が含まれるようになりました。さらに、Amazon EMR 7.2 では、Amazon EMR コンソールでモニタリングを強化するための追加の Amazon CloudWatch メトリクスを表示でき、包括的なモニタリング機能が提供されるため、クラスターのパフォーマンスと正常性をより効果的に追跡できます。
2024/08/13 - Amazon EMR での Amazon S3 Express One Zone ストレージクラスのサポートを発表
Amazon EMRは、Amazon S3 Express One Zone ストレージクラスが、すべての EMR デプロイモデル (EMR on EC2、EMR on EKS、および Spark、Trino、Flink、Hive、HBase ワークロード向けの EMR Serverless) でサポートされるようになりました。
2024/08/19 - Amazon EMR は、EC2 インスタンスの優先順位付けと容量最適化優先順位付けの割り当て戦略をサポートします
EC2 上の Amazon EMR でインスタンスフリートの 2 つの新しい配分戦略がサポートされました。1 つはオンデマンドインスタンス向けに優先順位付けされた戦略、もう 1 つはスポットインスタンス向けに容量で最適化して優先順位付けされた戦略です。
配分戦略を使用すると、希望する容量を満たすために、指定したインスタンスタイプとアベイラビリティーゾーンのリストから EMR が選択する方法を決定できます。これらの新しい戦略により、EMR ワークロードのインスタンスをプロビジョニングする際の制御と柔軟性が高まります。
2024/08/30 - Amazon EMR マネージドスケーリングがアプリケーションマスター配置に対応
EMR マネージドスケーリングは、YARN ノードラベルで定義された個々の AM (アプリケーションマスター) またはエグゼキューターのリクエストの需要に基づいてクラスターをスケーリングするようになりました。AM またはエグゼキューターの需要に基づいてクラスターをインテリジェントにスケーリングすると、パフォーマンス、使用率が向上し、コストが削減されます。
最後に
AWS Glue データカタログビューは、Amazon Athena と Amazon Redshift から AWS Glue データカタログにマルチエンジン SQL ビューを作成したり、そのアクセス権限を付与したり、それに対してクエリを実行したりできる新機能です。AWSリージョン内のデータを複製や移動なしに共有するためには欠かせないアプローチかもしれません。
また、Amazon QuickSightは、ネストフィルターという新しい高度なフィルタータイプが使えるようになりました。マーケットバスケット分析という本来ならETL (抽出、変換、ロード) ジョブ、複雑な SQL 操作、データパイプラインで事前集計が必要な複雑なこともQuickSight上で完結させられるようになりました。
個人的には、Amazon Redshift は、Query Editor V2 のクエリインポート機能のサポートでフォルダ全体をインポートできるのが便利でした。SQLをフォルダごとまとめてアップロード&チーム共有できたのでクラスタの管理はクエリエディタでできるようになりました。
P.S. 最近、Athenaさんのアップデートがなく寂しい毎日です。ドカンと大きなアップデートが来ることをお待ちしています。