ちょっと話題の記事

クラスメソッド データアナリティクス通信(AWSデータ分析編) – 2023年7~9月合併号

2023.09.05

データアナリティクス事業本部 コンサルティングチームの石川です。コンサルティングチームメンバーを中心に、日々AWSのアナリティクス関連サービスのアップデートとそのブログを追っています。

先月、先々月は業務多忙のため、合併号とさせていただきます。(ゴメンナサイ m(_ _)m)

Amazon Redshiftは、Redshift Serverlessのスケジューラやシングルサインオンの対応、 Amazon Forecastとの統合、QUALIFY句のサポートを開始しました。AWS Glueは、AWS Glue for RayがGAになった他に、AWS Glue for Apache Spark 向け Snowflake 接続の一般提供開始、Amazon CodeWhisperer をサポートするようになりました。Amazon QuickSightは、CI/CDを可能にするアセットのデプロイを自動化および高速化するAPIのサポート、統一されたカラーエクスペリエンスを提供開始、スモールマルチプルとレーダーチャート用の軸のカスタマイズオプションやピボットテーブルの階層レイアウトが可能になりました。

では、ガンガン紹介しますね。

Amazon Redshift

新機能・アップデート

2023/06/07 - Amazon Redshift Serverless がクエリのスケジューリングと Single Sign-On をサポート

Amazon Redshiftでサポートしていたスケジュールクエリが、Amazon Redshift Serverless でも利用できるようになりました。スケジュールクエリは、Query Editor V2 または Amazon Redshift Data APIを使用してクエリのスケジュール実行ができるようになります。

また、Amazon Redshift Serverlessでもシングル サインオンを利用できるようになりました。シングル サインオンは、IDプロバイダー (IdP)のIdP グループのメンバーシップに基づいてユーザーに付与されたデータベース ロールのリストを渡すことができるようになります。Amazon Redshift Query Editor V2、JDBC/ODBC クライアント、および Data API でシングルサインオンサポートします。

2023/06/21 - Amazon Redshift でデータウェアハウスを暗号化するエクスペリエンスが向上

全体の暗号化時間が短縮し、暗号化プロセス中のウェアハウスの可用性が向上しました。

2023/07/17 - Amazon Redshift で SELECT SQL ステートメントの QUALIFY 句のサポートを開始

Amazon Redshift が SELECT SQL ステートメントで QUALIFY 句をサポートするようになりました。これにより、サブクエリを使用せずにウィンドウ関数の結果にフィルタリング条件を適用できます。

実際に検証したブログは以下になります。

2023/07/17 - Amazon Redshift ML が Amazon Forecast との統合を発表

Amazon Redshift ML により、使い慣れた SQL コマンドを使用して、機械学習 (ML) ベースの時系列予測サービスである Amazon Forecast を活用できるようになりました。

2023/07/25 - Amazon Redshift が AWS Glue データカタログの自動マウントを発表

Amazon Redshift は、Amazon Redshift で外部スキーマを作成する必要なく、AWS Glue データカタログにカタログ登録されたデータレイクテーブルを使用できるようになりました。

Redshift query editor v2で、Glueデータカタログが利用できるFederated Userを使用して参照できることを確認しています。

2023/07/25 - Amazon Redshift で Apache Iceberg テーブルのクエリをサポート開始

4月にAmazon Athenaで利用可能になったIcebergフォーマットのテーブルを、Redshiftでもサポートしました 。

執筆時点では、まだプレビューで制限事項が多くありますので限定的です。

2023/08/01 - AWS が Amazon Redshift の Apache Spark との統合のオープンソース化を発表

AWS は、Amazon Redshift の Apache Spark との統合をオープンソース化しました。

APIの変更点

2023/06/20 - Amazon Redshift - 4 new 18 updated methods

Redshift Provisioned クラスタ用のカスタムドメイン名のサポートを追加しました。この機能により、お客様はカスタムドメイン名を作成し、ACMを使用してそのドメイン名への完全にセキュアな接続を生成できます。

Amazon Athena

新機能・アップデート

2023/06/08 - Amazon Athena for Apache Spark now supports Apache Hudi, Apache Iceberg, and Delta Lake

Amazon Athena for Apache Spark は、オープンソースのデータレイクストレージフレームワークである Apache Hudi 0.13、Apache Iceberg 1.2.1、および Linux Foundation Delta Lake 2.0.2 をサポートするようになりました。これらのフレームワークは、ACID (アトミック性、一貫性、分離性、耐久性) トランザクションを使用した大規模なデータ セットの増分データ処理を簡素化し、データ レイクでの大規模なデータ セットの保存と処理を簡素化します。

2023/06/29 - Amazon Athena now supports querying restored data in S3 Glacier

Amazon Athenaを使用して、Amazon Simple Storage Service (S3) Glacierストレージ クラスに保存されているデータをクエリできるようになりました。

APIの変更点

2023/06/02 - Amazon Athena - 1 new methods

このリリースでは、DeleteCapacityReservation APIと、CloudFormationを使用してキャパシティ予約を管理する機能が導入されています。

2023/06/08 - Amazon Athena - 2 updated methods

クラスタの暗号化、テーブルフォーマット、一般的なSparkのチューニングなどのユースケースのために、セッション開始時にカスタムSparkプロパティを定義できるようになりました。

Amazon Glue

新機能・アップデート

2023/06/05 - AWS Glue for Ray is now generally available

AWS Glue for Ray が一般提供されました。AWS Glue for Ray は、データエンジニアや ETL (抽出、変換、ロード) 開発者が Python ジョブをスケールする新たな選択肢です。

Glue for Rayは一般提供開始されましたが、まだVPCへプライベート接続できないため、VPCへのプライベート接続ができるまでは、Data APIを使うことになります。

弊社の笠原さんが「Glue for Rayを使ってみよう」タイトルで、イベントで登壇しています。

2023/06/06 - AWS Glue Data Quality is now generally available

AWS は、データレイクとデータパイプラインの品質を自動的に測定および監視する機能である AWS Glue Data Quality の一般提供を発表しました。

2023/06/16 - AWS Glue Studio のビジュアル ETL に 5 種類のビジュアル変換を新たに追加

AWS Glue Studioは、[Record matching]、[Remove null rows]、[Extract string fragments from a regular expression]、[Parse JSON column]、および [Extract JSON path] という 5 つの新しいビジュアル変換が追加されました。

2023/06/19 - AWS Lake Formation と Glue データカタログがクロスリージョンのテーブルアクセスをサポート

AWS Lake Formation は、リージョン全体で Glue データ カタログ データベースとテーブルへのアクセスをサポートするようになりました。以前は、別のリージョンから Glue データ カタログのデータベースとテーブルにアクセスするには、カタログ アイテムや基礎となるデータをソース リージョンからローカル リージョンにレプリケートする必要がありました。Lake Formation のクロスリージョン サポートにより、Lake Formation が利用可能などのリージョンからでも Glue カタログ データベースとテーブルにアクセスできるようになりました。

2023/07/07 - AWS Glue クローラーで Apache Iceberg テーブルのサポートを開始

AWS Glue クローラーで Apache Iceberg テーブルがサポートされるようになりました。

2023/07/21 - AWS Glue クローラーで Apache Hudi テーブルのサポートを開始

AWS Glue クローラーが Apache Hudi テーブルをサポートするようになりました。

2023/07/25 - AWS Glue ジョブに AWS Glue DataBrew レシピを含めることが可能に

AWS Glue Studio のビジュアル ETL ジョブは、DataBrew レシピを変換フローのステップとして使用できるようになりました。

2023/07/25 - AWS Glue Studio が Amazon Redshift Serverless のサポートを開始

AWS Glue Studio では、データソースまたはターゲットとして Amazon Redshift Serverless をサポートするようになりました。

2023/07/25 - AWS Glue for Apache Spark 向け Snowflake 接続の一般提供開始

AWS Glue for Apache Spark は、Snowflake へのネイティブ接続のサポートを開始しました。

2023/07/26 - AWS Glue Studio が Amazon CodeWhisperer をサポートするようになりました

AI コーディング支援サービスのAmazon CodeWhisperer が AWS Glue Studio で利用可能になりました。Amazon CodeWhisperer は追加料金なしで使用でき、AWS Glue Studio ノートブックでリアルタイムのコードの提案を生成できます。但し、米国東部 (バージニア北部) リージョンでご利用となります。

2023/08/16 - AWS Glue Studio のビジュアル ETL に 5 種類のビジュアル変換を新たに追加

AWS Glue Studioには、[Record matching]、[Remove null rows]、[Extract string fragments from a regular expression]、[Parse JSON column]、および [Extract JSON path] という 5 つの新しいビジュアル変換が追加されました。

APIの変更点

2023/06/19 - AWS Glue - 12 updated methods

このリリースでは、リージョン間のテーブル/データベース リソース リンクの作成のサポートが追加されています。

2023/06/26 - AWS Glue - 5 updated methods

Glue ストリーミング ジョブにおける Kinesis および Kafka データ ソースのタイムスタンプの開始位置に対応しました。

2023/06/29 - AWS Glue - 5 updated methods

Iceberg テーブルを使用した AWS Glue クローラーのサポートが追加され、クローラーが S3 で Iceberg テーブルを検出し、クエリエンジンがクエリを実行できるように Glue データ カタログに登録できるようになりました。

2023/07/07 - AWS Glue - 1 updated methods

Apache Iceberg テーブルと関連メタデータを作成できるようになりました。

2023/07/21 - AWS Glue - 5 updated methods

Apache Hudi テーブルを使用した AWS Glue クローラーのサポートが追加されました。

2023/07/23 - AWS Glue - 5 updated methods

Glue Studio ジョブにDataPrepレシピノードのサポートを追加しました。

Amazon QuickSight

新機能・アップデート

2023/06/07 - Amazon QuickSight が、アセットのデプロイを自動化および高速化する API をサポート

Amazon QuickSight が、BI アセットのデプロイと管理を自動化する新しい API 機能をリリースしました。ダッシュボード、分析、取り込みスケジュールを含むデータセット、データソース、テーマ、アカウントや、環境全体の VPC 設定などの QuickSight アセットをエクスポートおよびインポートするためのプログラムによるアクセスが可能になります。

コンサルティングチームの新納さんがイベントで紹介しています。

2023/06/08 - QuickSight が、標準化されたユーザーレベルのコストと使用状況データの提供を開始

Amazon QuickSight の管理者は、標準化された形式の AWS のコストと使用状況レポートで、すべてのユーザータイプのユーザーレベルのコストと使用状況のデータにアクセスできるようになりました。

2023/07/13 - Amazon QuickSight が分析とダッシュボードのための統一されたカラーエクスペリエンスを提供開始

Amazon QuickSight では、分析とダッシュボードのための新しい統一されたカラーエクスペリエンスが導入されました。作成者はフィールドレベルで色を割り当て、同じフィールドを持つさまざまなビジュアルが同じ色に表現できるようになりました。

2023/07/13 - Amazon QuickSight にスモールマルチプルとレーダーチャート用の軸のカスタマイズオプションが追加

Amazon QuickSight では、スモールマルチプルとレーダーチャート用の新しい軸の構成がサポートされるようになり、ユーザーはユースケースに応じて軸の設定をカスタマイズできるようになりました。

2023/07/25 - Amazon QuickSight now supports Snapshot Export APIs

ページ分割 PDF レポートと CSV コンテンツをプログラムでエクスポートできる新しい API 機能をリリースしました。

2023/07/25 - Amazon QuickSight が分析ファイルメニューを導入

分析体験全体にわたってナビゲーションと効率を向上させるため、分析メニューがリリースされました。

2023/08/09 - Amazon QuickSight がピボットテーブルの階層レイアウトを開始

ピボットテーブル用の階層レイアウトと呼ばれる新しいレイアウトオプションが導入されました。データを階層的に表示、すべての行フィールドが 1 つの列に表示され、異なるフィールドの項目を区別できるようにインデントが付けられます。階層レイアウトは、行フィールドのフットプリントを減らし、数値データ用のスペースを増やし、より整理されたコンパクトなピボットテーブルを作成することでスペースを最適化します。

2023/08/14 - Amazon QuickSight で AWS IAM アイデンティティセンターとの統合の一般提供を開始

Amazon QuickSight が AWS IAM アイデンティティセンター対応しました。QuickSight にサブスクライブしている管理者が、IAM アイデンティティセンターを使用して、ユーザーが既存の認証情報を使ってログインできるようにすることが可能になりました。

2023/07/25 - Amazon QuickSight adds scheduled and programmatic export to Excel format

Amazon QuickSight は、ダッシュボードの任意のシートから複数のテーブルとピボットテーブルビジュアルを選択することによる Excel ワークブックのスケジュールされた生成をサポートするようになりました。スナップショット エクスポート API は、ページ分割された PDF および CSV に加えて、Excel 形式へのプログラムによるエクスポートもサポートするようになりました。

APIの変更点

2023/06/06 - Amazon QuickSight - 9 updated methods

QuickSight では、ピボットテーブルフィールドの折りたたみ状態、レーダー チャートの範囲スケール、および条件付き書式設定での複数のスコープオプションがサポートされています。

2023/07/06 - Amazon QuickSight - 9 updated methods

小さな倍数軸の改善、フィールドベースの色付け、TopBottomFilter の集計関数からの必須特性の削除、の3つの変更点が含まれています。

2023/07/24 - Amazon QuickSight - 3 new 9 updated methods

CSV および PDF エクスポート用の新しいスナップショット API、探索 API のフィルターとパラメーターの情報アイコンのサポートが追加されました。また、モデル化された例外が DeleteAccountCustomization API に追加され、ツールヒントに UNIQUE_VALUE 集計を追加する AttributeAggregationFunction の機能が導入されています。

Amazon AppFlow

新機能・アップデート

2023/06/15 - Amazon AppFlow が 4 つの新しいデータコネクタを発表

Amazon AppFlow で、Software as a Service (SaaS) アプリケーション用の新しい 4 つのデータコネクタがリリースされました。

  • Adobe Analytics
  • Blackbaud Raiser’s Edge
  • Coupa
  • Google BigQuery

AWS Clean Rooms

新機能・アップデート

2023/07/16 - AWS Clean Rooms が、大規模なコラボレーションを簡単に行えるようにする 2 つの新機能をリリース

Analysis Builder は、ビジネスユーザーがコードを記述しなくてもインサイトを生成できるようにするガイド付き UI が提供されました。また、AWS CloudFormation テンプレートを使用したコラボレーションの作成、更新、削除や、設定済みテーブルとテーブルの関連付けといったリソースの管理もできるようになりました。

2023/08/30 - AWS Clean Rooms launches new capabilities for increased configurability

AWS Clean Rooms は、構成可能な分析結果設定の一般提供と、Apache Iceberg サポートのプレビューという 2 つの新機能を発表しました。お客様は希望する結果受信者とデータ形式を使用して AWS Clean Rooms コラボレーションをより柔軟に設定できるようになります。

APIの変更点

2023/06/29 - AWS Clean Rooms Service - 4 updated methods

RSQL 結合一致条件での OR 演算子のサポートと、結合一致条件でどの演算子 (AND、OR) を許可するかを制御する機能が追加されました。

Amazon OpenSearch

新機能・アップデート

2023/06/05 - Amazon OpenSearch Service で gp3 ボリュームに対するより高い IOPS とスループットのプロビジョニングが可能に

Amazon OpenSearch Service では、データノードごとにプロビジョニングされる 3 TiB の gp3 ボリュームサイズあたり最大 16,000 IOPS と 1000 MiB/秒 のスループットをプロビジョニングできるようになりました。

2023/06/26 - Amazon OpenSearch Ingestion が Amazon Security Lake からのイベントの取り込みに対応

Amazon OpenSearch Ingestion で、Amazon Security Lake からリアルタイムでイベントを取り込むことができるようになりました。

2023/07/10 - Amazon OpenSearch Service が OpenSearch バージョン 2.7 をサポート開始

Amazon OpenSearch Service で OpenSearch バージョン 2.7 を実行できるようになりました。OpenSearch 2.7 では、OpenSearch Service におけるオブザーバビリティ、セキュリティ分析、インデックス管理、地理空間機能にいくつかの改善が加えられました。

2023/07/26 - Vector engine for Amazon OpenSearch Serverless がプレビューに

Amazon OpenSearch Service では、シンプルかつスケーラブルで、高性能な Vector engine for Amazon OpenSearch Serverless が提供されるようになりました。

2023/07/29 - Amazon OpenSearch Serverless now supports AWS User Notifications

Amazon OpenSearch Serverlessと AWS User Notificationの統合が発表されました。OCU 使用率が検索または取り込みに対して構成された最大制限に近づいた場合やその制限に達した場合に通知を送信するようにシステムを構成できます。ユーザー通知機能により、リソースの使用状況を常に監視する必要性が軽減されます。

2023/07/30 - Service Quotas adds support to increase the instances per domain quota for Amazon OpenSearch Service

Amazon OpenSearch Service ドメインのインスタンス数に対するクォータの増加リクエストをサポートするようになり、AWS アカウントの各ドメインに適用されたクォータ値も表示できるようになりました。

2023/08/15 - Amazon OpenSearch Serverless が大規模なワークロードとコレクションのサポートを拡張

Amazon OpenSearch Serverless で、1 つのコレクションに 1 つ以上のインデックスを含む最大 6 TB の時系列データをスキャンおよび検索できるようになりました。

AWS Lake Formation

新機能・アップデート

2023/07/17 - AWS Lake Formation が LF タグ管理の委任をサポートするようになりました

AWS Lake Formation で、Lake Formation タグ (LF タグ) の権限の作成、管理、付与を Lake Formation 管理者以外のユーザーに委任できるようになりました。このリリースにより、Lake Formation の管理者はデータスチュワードや他のユーザーに LF タグを管理する権限を与えることができるようになります。

AWS Clean Rooms Service

新機能・アップデート

2023/07/21 - AWS Clean Rooms launches new capabilities for increased configurability

AWS Clean Rooms は、構成可能な分析結果設定の一般提供と、Apache Iceberg サポートのプレビューという 2 つの新機能を発表しました。これらのリリースにより、お客様は希望する結果受信者とデータ形式を使用して AWS Clean Rooms コラボレーションをより柔軟に設定できるようになりました。

APIの変更点

2023/07/31 - AWS Clean Rooms Service - 8 new 15 updated methods

実行できる拡張された SQL セットであるカスタム SQL クエリが導入されました。事前定義されたカスタム SQL クエリを事前に保存するための新しいリソースである分析テンプレートが追加されています。このリリースでは、クエリ用の分析テンプレートを承認できるカスタム分析ルールも追加されています。

Amazon MWAA

新機能・アップデート

2023/07/21 - Amazon MWAA が Apache Airflow バージョン 2.6 のサポートを開始

Amazon Managed Workflows for Apache Airflow (MWAA) で Apache Airflow バージョン 2.6 環境を作成できるようになりました。

新機能・アップデート

2023/08/30 - Introducing Amazon Managed Service for Apache Flink

AWS は Amazon Kinesis Data Analytics の名前を Amazon Managed Service for Apache Flink に変更します。Amazon Managed Service for Apache Flink を使用すると、データ ストリームを処理するためのオープンソース フレームワークおよびエンジンである Apache Flink を使用して、ストリーミング データをリアルタイムで変換および分析できます。

Amazon EMR

新機能・アップデート

2023/06/01 - EMR on EKS now supports container log rotation for Apache Spark

EKS での EMR で Apache Spark ジョブを実行する際に、コンテナログローテーションを制御する機能が利用可能になりました。コンテナログローテーションを有効にすることで、過剰なログファイルがポッドの実行に影響を及ぼすのを回避できます。

2023/07/27 - Amazon EMR Serverless できめ細かなログ設定の指定が簡単に

Spark および Hive ジョブで Amazon EMR Serverless 上の AWS Secrets Manager からシークレットを取得できるようになりました。Spark や Hive のジョブから、他のシステムに接続するために必要となる、データベースの認証情報や API キーなどの機密情報にSecrets Manager に保存されているシークレットを用いて取得することが可能になります。

2023/07/31 - Amazon EMR Serverless できめ細かなログ設定の指定が簡単に

Amazon EMR Serverless API を呼び出して、アプリケーション UI を表示できるようになりました。たとえば、実行中のジョブの場合はライブの Spark UI または Tez UI を、完了したジョブの場合は Spark History Server または永続的な Tez UI を表示できます。

2023/08/09 - Amazon EMR Studio が AWS Lake Formation のきめ細かなアクセス制御のサポートを追加

EMR Studio ワークスペースで、EMR on EC2 クラスターを介してデータにアクセスする際に、AWS Lake Formation によるきめ細かなデータアクセス制御を適用できるようになりました。

2023/08/15 - Amazon EMR Serverless できめ細かなログ設定の指定が簡単に

ドライバーとエグゼキューターのログにきめ細かなログ設定を指定できるようになりました。これにより、Apache Spark ジョブのトラブルシューティングが簡単になります。

最後に

最近の傾向としては、Amazon Redshift、Amazon Athena AWS Glueが、次世代データレイクフォーマットである、Apache Iceberg、Apache Hudi、Linux Foundation Delta Lakeに関するサポートや頻繁なアップデートがありました。中でも、Apache Icebergの参照・更新は、Amazon AthenaとGlueでサポートしてています。Amazon Redshiftも参照系のクエリをサポートし、この流れに追従することになるでしょう。AWS Glueクローラが次世代データレイクフォーマットをサポートすることで、S3データレイク上のデータに対してACIDに更新できることが当たり前になるのもそう遠い未来ではなさそうです。

先日、AWS主催のオンラインカンファレンス、ちょっぴり DiveDeep する AWS の時間にて「Amazon Athena (Iceberg) x dbt ではじめるデータ分析!」というテーマにて登壇しました。Apache Icebergについても、解説しておりますのでご覧ください。

では、また来月お会いしましょう!