クラスメソッド データアナリティクス通信(AWSデータ分析編) – 2023年6月号

2023.06.04

データアナリティクス事業本部 コンサルティングチームの石川です。コンサルティングチームメンバーを中心に、日々AWSのアナリティクス関連サービスのアップデートを追っています。

先月は、アナリティクスサービス全般的に大きなアップデートは少なめでしたが、Amazon QuickSightについては、機能追加やパフォーマンスの改善など、目を引くアップデートが多くありました。

Amazon Redshift

新機能・アップデート

2023/04/13 Amazon Redshift がストアドプロシージャでの自動コミットのステートメントをサポート

ストアドプロシージャ内の強化されたトランザクション制御のサポートしました。プロシージャ内のステートメントを自動的にコミットできるようになります。さらに、NONATOMIC モードは、ストアドプロシージャ内のエラーによるアプリケーションの中断を防ぐのに役立ちます。

Amazon Athena

新機能・アップデート

2023/05/09 Amazon Athena が Apache Hudi 0.12.2 のサポートを開始

Apache Hudi 0.12.2 で作成されたテーブルにクエリを実行できるようになりました。

2023/05/18 Amazon Athena がインバウンド接続の IPv6 エンドポイントをサポートするようになりました

以前から利用可能であったパブリック IPv6 エンドポイントに加え、Amazon Virtual Private Cloud (VPC)から PrivateLink を使用して Athena に安全かつプライベートに接続できるようになりました。

APIの変更点

2023/05/15 - Amazon Athena - 2 updated api methods

クラスター暗号化、テーブル形式、一般的な Spark チューニングなどのユースケースのために、セッションの開始時にカスタム Spark プロパティを定義できるようになりました。

AWS Glue

新機能・アップデート

2023/05/09 AWS Glue のラージインスタンスタイプが一般公開されました

現在のG.1XとG.2Xに加え、AWS Glueの大規模インスタンスタイプG.4X および G.8Xが一般提供されました。これらの新しいWorker Typeは、メモリを大量に消費するデータ変換、偏った集計、機械学習変換、ペタバイト規模のデータによるエンティティ検出チェックなど、最も要求の厳しいデータ統合ワークロードを拡張して実行するのに有効です。

2023/05/09 AWS Glue クローラがカスタムJDBCドライバをサポートしました

以前から独自のカスタム JDBC ドライバーを用いてData Connectionを作成して、ETLジョブのデータソースに指定できました。今回のアップデートでは、Glue クローラーのデータソースとしてData Connectionを指定できるようになり、データソースからデータスキーマを抽出し、AWS Glue データカタログへの登録に対応しました。これらのデータソースには、PostgreSQL、MySQL、Oracle、SQL Server、Amazon Redshift が含まれます。

APIの変更点

2023/05/08 - AWS Glue - 21 updated api methods

2023/05/09 - AWS Glue - 5 updated api methods

DynamicTransform OutputSchemas に加えて、Redshift ソースノードとターゲットノードが追加されています。

2023/05/16 - AWS Glue - 2 updated api methods

カスタムエンティティタイプのタグのサポートを追加しました。

2023/05/25 - AWS Glue - 12 updated api methods

共有のクロスアカウント Glue データカタログテーブルのData Qualityルールセットを作成する機能が追加されました。AdditionalDataSources と呼ばれる新しいパラメーターを通じて、データセット比較ルールのサポートが追加されました。プロファイルされたメトリック値を含むマップを使用してData Qualityの結果を強化しました。

Amazon QuickSight

新機能・アップデート

2023/05/05 Amazon QuickSight がスライスとダイスの体験を最適化するデータセットパラメータをローンチ

従来は分析がデータを取得するタイミングで都度データソースにクエリを発行するダイレクトクエリモードでフィルターなどを使うとデータセットで設定したカスタム SQL などをサブクエリとして、自動で WHERE 句が追加されていました。今回のアップデートではダイレクトクエリ時にフィルター構成やカスタム SQL 内でデータセットパラメータを埋め込むことで、ダイレクトクエリをコントロールしやすくなりました。

下記のブログでは、ダイレクトクエリ時にフィルター構成やカスタム SQL 内でデータセットパラメータを埋め込むことができることを検証しています。

2023/05/08 Amazon QuickSight がマルチ AZ をサポートするパブリック API 経由の VPC 接続をサポート

AWS SDK や CLI を始めとする API 経由でのVPCの接続の管理ができるようになりました。また、従来はシングル AZ (Availability Zone) でのみサポートされていたのですが、今回マルチAZのサポートに伴い、マルチAZが必須になったようです。上記の対応に関連して、QuickSight のVPC 管理画面がリニューアルされています。

以下のブログでは、新コンソールの確認と、実際にマルチAZでの構築まで検証しています。

2023/05/08 Amazon QuickSight が埋め込みダッシュボードの状態の永続性とブックマークをサポートするようになりました

今回のアップデートで、QuickSight リーダーセッションを使った組み込み(generate-embed-url-for-registered-user)方法で状態保持とブックマーク機能がサポートされました。

以下のブログでは、状態保持とブックマーク機能の動作について検証しています。

2023/05/09 Amazon QuickSight にさらなるユースケースをサポートする新しい散布図オプションを追加

従来から「散布図」の利用できましたが、 Group/Color フィールドウェルにフィールドを設定した場合は集計された散布図となり、設定しなかった場合は非集計の散布図となる挙動でした。本日のアップデートで Color ラベルを指定した場合でも非集計を選択することが出来るようになりました。

また、今回のアップデートでラベルフィールドを指定することが出来るようになり、ポイントとあわせてラベル文字列を表示することが出来るようになりました。

下記のブログでは、フィールドメニューで新しい集計オプションの [None] (なし) を選択して、ラベルフィールドの追加について検証しています。

2023/05/15 Amazon QuickSight が SPICE パフォーマンス最適化のためのCSE (Common Sub-expression Elimination) を提供しました

Amazon QuickSightは、CSE (Common Sub-expression Elimination) クエリを最適化することによって複雑なダッシュボードや時間のかかる操作レスポンスが改善されました。現在、CSEは、SPICEデータセットのみでサポートしています。この最適化は、お客様が設定することなく有効になります。

APIの変更点

2023/05/04 - Amazon QuickSight - 18 new 13 updated api methods

Topic、データセットパラメータ、VPC のサポートを追加しました。

2023/05/22 - Amazon QuickSight - 6 new 9 updated api methods

アセット バンドル、地理空間ヒートマップのサポートを追加しました。

Amazon OpenSearch Service

APIの変更点

2023/05/04 - Amazon OpenSearch Service - 1 new api methods

DescribeDomainNodes: ドメインのノード部分の構成情報を提供する新しい APIの追加しました。

Amazon Kinesis

新機能・アップデート

2023/04/11 Amazon Kinesis Data Firehose に Amazon OpenSearch Service によって自動生成されるドキュメント ID のサポートが追加されました

Amazon Kinesis Data Firehose をご利用のお客様は、OpenSearch Service の自動生成ドキュメント ID オプションを使用して Amazon OpenSearch Service にデータを送信できるようになりました。この設定オプションにより、ログ分析やオブザーバビリティなどの書き込みの多い操作で、OpenSearch ドメインで消費する CPU リソースが少なくなり、パフォーマンスが向上します。

Amazon EMR

APIの変更点

2023/05/10 - Amazon EMR - 3 updated api methods

EMR Studio は、EKS クラスター上の EMR でのノートブックのプログラムによる実行をサポートするようになりました。さらに、S3 内の場所を指定してノートブックを実行できるようになりました。

最後に

Amazon QuickSightは、データセットパラメータがリリースされ、カスタムクエリのプレースホルダにパラメータを設定できるようになります。データセットパラメータを指定したクエリは、サブクエリーにすることなくフィルタ条件を指定できるようになります。また、「Common Sub-expression Elimination」によるSPICEのパフォーマンス最適化が自動的に適用されるようになります。

AWS Glueは、現在のG.1XとG.2Xに加え、AWS Glueの大規模インスタンスタイプG.4X および G.8Xが一般提供され、スケールアップ戦略によるパフォーマンス改善の選択肢が増えました。

では、また来月お会いしましょう!