クラスメソッド データアナリティクス通信(AWSデータ分析編) – 2023年12月号

2023.11.27

データアナリティクス事業本部 コンサルティングチームの石川です。コンサルティングチームメンバーを中心に、日々AWSのアナリティクス関連サービスのアップデートとそのブログを追っています。

明日からre:Invent2023が始まります!

ということで、今回は re:Invent2023 が始まる11/27までのアップデートを紹介します。今年のre:Invent2023 アナリティクス関連のセッションについて、事前にチェックすることをおすすめします!

Amazon Redshift

新機能・アップデート

2023/11/01 - Amazon Redshift マルチ AZ が RA3 クラスター向けに一般提供開始

昨年のre:Invent2022に発表された Amazon Redshift RA3 クラスターのマルチ AZ 配置がついに一般提供(GA)になりました。Redshiftを複数のアベイラビリティーゾーン (AZ) で同時に実行し、予期しない障害シナリオでも運用を続けることができるようになりました。マルチ AZ 配置は、RedshiftのSLAの可用性の保証を 99.99% に引き上げることができます。また、非常に要求の厳しいミッションクリティカルなワークロードに対応する可用性の高いデータウェアハウスを実現できます。

2023/11/07 - AWS が Amazon Aurora MySQL と Amazon Redshift のゼロ ETL 統合の一般提供開始を発表

昨年のre:Invent2022に発表された Amazon Aurora MySQLとAmazon RedshiftのゼロETL統合が一般提供(GA)になりました。RedshiftでAurora MySQLのほぼライブデータを用いてリアルタイムで分析と機械学習 (ML) を行うことが可能となりました。 Aurora に書き込まれたトランザクションデータは数秒以内に、そのデータを Amazon Redshift で利用することができます。抽出、変換、ロード (ETL) 操作を実行するための複雑なデータパイプラインを構築して管理する必要はありません。Amazon Aurora MySQL と Amazon Redshift のゼロ ETL 統合は、現在、Amazon Aurora Serverless v2 と Provisioned、Amazon Redshift Serverless と RA3 のインスタンスタイプでご利用いただけます。

2023/11/09 - Amazon Redshift が Redshift Serverless の新しいコンピューティングコストの管理設定である MaxRPU をリリース

Amazon Redshift Serverlessは、コンピューティングしきい値の上限を任意で指定できるMaxRPUを設定できるようになりました。Redshift Serverless がスケール可能な最大コンピューティングレベルをワークグループごとに選択してあらゆる時点でのデータウェアハウスのコストを管理できます。

2023/11/17 - Amazon Redshift announces support for CNAME

Amazon Redshift は、CNAMEまたはカスタムドメイン名をサポートするようになりました。CNAMEによってRedshift Serverlessの接続は、データベース接続で Redshift エンドポイントを公開する必要がなくなり、セキュリティが強化され、呼び出しや使用が容易になります。

2023/11/20 - Amazon Redshift announces integration with AWS Glue column-level statistics

Amazon Redshift のRedshift Spectrumは、AWS Glue データ カタログに保存されている列レベルの統計を利用して、最適化されたクエリプランを生成することでデータレイクのクエリのパフォーマンスを向上できるようになりました。

APIの変更点

2023/11/01 - Amazon Redshift - 1 new 16 updated api methods

99.99% の SLA 可用性を提供するプロビジョニングされた RA3 クラスターのマルチ AZ デプロイメントのサポートが追加されました。

2023/11/08 - Redshift Serverless - 5 updated api methods

コンピューティング リソースのコストの制御に役立つ新しいパラメーターがワークグループに追加されました。この機能は、Amazon Redshift Serverless がスケールアップできる RPU の上限を提供します。自動計算スケーリングが必要な場合、MaxRPU の値を大きくすると、クエリのスループットが向上します。

2023/11/15 - Amazon Redshift - 1 updated api methods

Amazon Redshift でプロビジョニングされたクラスター用のカスタム ドメイン名 SDK が更新され、変更および削除操作に必要なパラメーターが追加されました。さらに、ユーザーは、より長いトップレベルドメインを含むドメイン名を指定できます。

2023/11/17 - Redshift Serverless - 1 updated api methods

Amazon Redshift Serverless 用の更新された SDK により、IAM Identity Center との接続を設定してデータベースへのユーザーおよびグループのアクセスを管理する機能が提供されます。

2023/11/17 - Amazon Redshift - 4 new 1 updated api methods

Amazon Redshift 用の更新された SDK。これを使用して IAM Identity Center との接続を設定し、データベースへのアクセスを管理できます。これらを使用すると、マネージド アプリケーションを介して接続を作成できます。管理対象アプリケーションを変更、削除したり、既存のアプリケーションに関する情報を取得したりすることもできます。

Amazon Athena

新機能・アップデート

2023/11/16 - New JDBC driver now available for Amazon Athena

新しい JDBC ドライバーをリリースしました。新しい JDBC ドライバーはAmazon S3 から結果を読み取ることで大規模なクエリ結果を使用するアプリケーションのパフォーマンスを向上させることができます。re:Invent直前のJDBC ドライバちょっと気になります。

2023/11/17 - Amazon Athena adds cost-based optimizer to enhance query performance

Amazon Athena はついにコストベースのオプティマイザー (CBO) に対応しました。AWS Glue データカタログによって収集されたテーブルと列の統計に基づいてクエリのパフォーマンスを強化します。CBO を使用すると、Athena はクエリ プランの最適化 (結合の並べ替えや集計のプランの前半への移動など) を分析して選択します。これにより、SQL コードを変更することなくパフォーマンスが向上します。

下記のブログでは、パフォーマンスが50%改善した例を紹介しています。個人的にはかなりインパクトのあるアップデートだと考えています。

AWS Glue

新機能・アップデート

2023/11/15 - AWS Glue データカタログが Apache Iceberg テーブルの自動圧縮をサポート

AWS Glue データカタログでは Apache Iceberg テーブルの自動圧縮のサポートを開始しました。自動圧縮を有効にすると、AWS Glue データカタログが新しいデータ書き込みを継続的にモニタリングし、基盤となる Amazon S3 ストレージで小さなファイルを追跡し、バックグラウンドで圧縮ジョブを自動的に実行します。Iceberg テーブルに合わせて S3のレイアウトが常に最適化されるため、データレイクの読み取りパフォーマンスが向上します。

2023/11/17 - AWS Glue Data Catalog now supports generating column-level statistics

AWS Glue データカタログは、AWS Glueテーブルの列レベルの統計の生成をサポートするようになりました。これらの統計は、Amazon Athena および Amazon Redshift Spectrum のコストベースのオプティマイザー (CBO) と統合されるようになり、クエリのパフォーマンスが向上し、潜在的なコスト削減が可能になります。 Redshift Spectrumのカラムレベル統計のサポートやAhtenaのCBO対応における、クエリプランを得るための統計情報はこの機能で取得することになります。むっちゃ重要です。

2023/11/17 - AWS Glue for Apache Spark announces native connectivity for Amazon OpenSearch Service

AWS Glue for Apache Spark は、 Amazon OpenSearch Service へのネイティブ接続をサポートするようになりました。これにより、ユーザーは OpenSearch コネクタライブラリをインストールまたは管理することなく、Amazon OpenSearch Service からデータを効率的に読み書きできるようになります。

2023/11/17 - AWS Glue launches native connectivity to 6 databases

AWS Glue for Apache Spark は、Teradata、SAP HANA、Azure SQL、Azure Cosmos DB、Vertica、MongoDB の 6 つの新しいデータベース コネクタのリリースを発表しました。これらのネイティブ コネクタを使用すると、ユーザーはコネクタ ライブラリをインストールしたり管理したりすることなく、これらのシステムからデータを効率的に読み書きできるようになります。

2023/11/20 - Announcing AWS Glue serverless Spark UI and observability metrics

AWS Glue ジョブのモニタリングとデバッグを強化する 2 つの新機能、AWS Glue serverless Apache Spark UI と AWS Glue 可観測性メトリクスの一般提供が開始されたことを発表します。

  • AWS Glue serverless Spark UI
    • AWS Glue Spark ジョブに関する詳細情報を取得できる新しい機能で、AWS Glue Studio で実行される AWS Glue Spark ジョブの詳細を確認できるようになります
    • AWS Glue serverless Spark UI を使用すると、スケジューラーのステージ、タスク、エグゼキューターに関する情報を取得できます。
  • AWS Glue 可観測性メトリクス
    • ジョブの信頼性、パフォーマンス、スループット、リソース使用率に関する追加の洞察を提供します。

AWS Glue serverless Spark UI と可観測性メトリクスは、AWS Glue 3.0 以降を使用する場合に利用できます。

APIの変更点

2023/11/02 - AWS Glue - 5 updated api methods

このリリースでは、AWS Glue CodeGenConfigurationNode に Google BigQuery のソースとターゲットが導入されました。

2023/11/14 - AWS Glue - 6 new api methods

Apache Iceberg テーブルの自動圧縮をサポートする新しいストレージ最適化 API を導入しました。

2023/11/16 - AWS Glue - 5 new api methods

Glue データ カタログ内のテーブルの統計生成をサポートする新しい列統計 API を導入しました。

Amazon QuickSight

新機能・アップデート

2023/11/08 - QuickSight launches FLOAT data type support for SPICE datasets

Amazon QuickSight は、SPICE データセットに対する FLOAT データ型のサポートしました。

2023/11/14 - Amazon QuickSight、アセット共有を管理するための制限付き共有フォルダとフォルダの寄稿者ロールをリリース

Amazon QuickSight は、制限付き共有フォルダ、寄稿者ロール、フォルダ内のデータソースアセットタイプのサポートしました。これらの機能により、フォルダレベルで QuickSight のアセット共有を管理できます。

2023/11/17 - Amazon QuickSight now supports programmatic user access management by assigning groups to roles

Amazon QuickSight は、IAM Identity Center および Active Directory 対応の QuickSight アカウントに対してプログラムでグループを管理者、作成者、および読者のロールに割り当てることにより、アクセス管理をサポートするようになりました。

2023/11/17 - Amazon QuickSight launches custom access to capabilities based on roles

Amazon QuickSight は、アカウント内のロール (読者、作成者、管理者) に基づいてユーザーの QuickSight 機能を制限するロールのカスタム権限サポートを開始します。この機能は、IAM Identity Center を含むすべての QuickSight ID タイプでサポートされています。

2023/11/20 - Amazon QuickSight now supports asset events using Amazon EventBridge

Amazon QuickSight は、アセットイベントを Amazon EventBridge に送信することにより、ビジネスインテリジェンス (BI) インフラストラクチャのイベント駆動型のスケーリングと自動化をサポートするようになりました。

2023/11/20 - Amazon QuickSight now supports runtime theming for embedded dashboards and visuals

Amazon QuickSight は、実行時に埋め込みダッシュボードとビジュアルのテーマ設定をサポートするようになりました。これにより、SaaS アプリケーションを Amazon QuickSight 埋め込みダッシュボードおよびビジュアルとシームレスに統合できます。

2023/11/20 - Amazon QuickSight now supports export and import of asset permissions and tags

Amazon QuickSight は、以前に開始されたエクスポート API とインポート API の更新として、アセットのアクセス許可とタグのプログラムによるエクスポートとインポートをサポートするようになりました。これにより、QuickSight アセットとそのアクセス許可およびタグをバックアップおよび復元し、継続的に複製および移行することができます。以前のバージョンのこれらの API では、アクセス許可とタグを個別に入力する必要がありました。詳細については、ここをクリックしてください。

2023/11/20 - Amazon QuickSight now Supports Connectivity to Google BigQuery

Amazon QuickSight は、Amazon QuickSight から Google BigQuery に直接接続できるネイティブ Google BigQuery コネクタの一般提供を開始しました。Google BigQuery の大規模なデータセットの分析を迅速に実行するための QuickSight の SPICE (超高速、並列、インメモリ計算エンジン) サポートが提供されます。

従来のようにGlueコネクタ経由でエクスポートして、Athena経由で参照するという手間がふようになり、ライブデータをクエリできる価値は大きいと感じられます。

2023/11/21 - Amazon QuickSight supports SPICE capacity auto-purchase

Amazon QuickSight は、 SPICE 容量の自動管理のための改善されたソリューションを提供する SPICE 容量自動購入できるようになりました。オプトインすることで容量不足によるエラーを回避できるようになります。

2023/11/22 - Amazon QuickSight launches a new redesigned analysis experience

Amazon QuickSightは、新しい分析エクスペリエンスを開始し、QuickSight でダッシュボードをより直感的かつ効率的に作成できるようにしました。新しい分析エクスペリエンスにより、QuickSight は作成者向けにコア ワークフローを再設計し、より直観的、スケーラブル、効率的になるようにしています。

個人的には、某有名なBIツールにインタフェースが近くなり使い勝手が良くなり、これはre:Inventのキーノートで発表しても良いぐらいのインパクトのあるアップデートだと思います。

APIの変更点

2023/11/02 - Amazon QuickSight - 15 updated api methods

カスタムウィーク機能について qmeixua@ から確認を取得し、サブタイプが表示されることを aws cli と Java SDK を使用してローカルでテストしました。

Amazon Kinesis

新機能・アップデート

2023/11/03 - Amazon Kinesis Data Streams が Amazon EventBridge パイプコンソールとの統合を発表

Amazon Kinesis Data Streams は、Kinesis Data Streams サービスコンソールでの Amazon EventBridge パイプコンソールとの統合されました。これによって、ストリームからAmazon SQS、AWS Step Functions、Amazon SNS、Amazon ECS、Amazon EventBridge イベントバス、または別の Kinesis データストリームといった 14 以上の AWS サービスターゲットのいずれかにレコードを簡単に送信できるようになります。

EventBridge パイプとの統合では、EventBridge API Destinations のターゲットもサポートされます。API コールを使用して、AWS 内外で Kinesis Data Streams のレコードをSaaSアプリケーションまたは独自のアプリケーションに送信するものです。

Amazon EMR

新機能・アップデート

2023/11/00 - Amazon EMR Studio adds interactive query editor powered by Amazon Athena

Amazon EMR Studioを使用して、 Amazon Athenaでインタラクティブなクエリを開発および実行できるようになりました。これにより、Spark、Scala、その他のワークロードに使用するのと同じインターフェイスから、Athena で SQL 分析用の EMR Studio を使用できるようになります。

2023/11/21 - Customers can now launch their Amazon EMR on EC2 clusters in 5 minutes or less

Amazon EMR が EC2 クラスターでの Amazon EMR の起動を前年比で最大 35% 高速化され、5分以内に起動できるようになりました。 Amazon EMR バージョン 6.12 以降を使用してクラスターを起動すると、クラスターの起動時間が短縮されます。

2023/11/22 - Amazon EMR Studio now supports Amazon CodeWhisperer

Amazon CodeWhisperer が Amazon EMR Studio で利用可能になりました。追加料金なしでAmazon CodeWhispererを使用して、Amazon EMR Studio ノートブックでリアルタイムのコード提案を生成できます。CodeWhisperer は、プロンプトと既存のコードに基づいて、スニペットから完全な機能に至るまでのコード提案をリアルタイムで生成できます。

2023/11/21 - Apache Flink is now generally available for Amazon EMR on EKS

Apache Flink がEKS上の Amazon EMRで一般利用可能(GA)になりました。EKS上のAmazon EMR用 Apache Flinkを使用すると、データ ストリーム上のステートフル計算のためのオープンソース フレームワークである Apache Flinkを使用して、ストリーミング データをリアルタイムで変換および分析できます。

APIの変更点

2023/11/17 - Amazon EMR - 3 updated api methods

EMR Studio で AWS KMS を使用した IAM Identity Center Trusted Identity Propagation とワークスペース ストレージ暗号化のサポートを開始。

Amazon MWAA

新機能・アップデート

2023/11/06 - Amazon MWAA で Apache Airflow バージョン 2.7 および遅延可能演算子のサポートを開始

Amazon Managed Workflows for Apache Airflow (MWAA) で Apache Airflow バージョン 2.7 の環境を作成して遅延可能演算子を実行できるようになりました。

さらに、Amazon MWAA 上の Airflow 2.7 は、Python 3.11 で動作し、Amazon Linux 2023 (AL2023) のイメージをベースとして構築されているため、セキュリティレベルが高く、最新のツールや Python の最新のライブラリ/機能が備わっています。

2023/11/15 - Amazon MWAA にカスタマーマネージド型エンドポイントによる共有 VPC サポートを追加

Amazon Managed Workflows for Apache Airflow (MWAA) は、一元的に管理された共有 Amazon Virtual Private Cloud (VPC) 内に環境を作成できるようになりました。VPC 共有により、チームはそれぞれ別々の AWS アカウントを使用して、一元的に管理された VPC 内にリソースを作成できます。

APIの変更点

2023/11/15 - AmazonMWAA - 2 updated api methods

この Amazon MWAA リリースでは、顧客管理の VPC エンドポイントのサポートが追加されています。これにより、環境の VPC エンドポイントを作成および管理するか、Amazon MWAA に作成および管理させるかを選択できます。

Amazon OpenSearch Service

新機能・アップデート

2023/11/09 - Amazon OpenSearch Service が Neural Search を導入

Amazon OpenSearch Service が OpenSearch 2.9 で Neural Search のサポートを開始しました。これにより、開発者はセマンティック検索アプリケーションを構築したり運用したりできるようになり、画一的で面倒な作業を減らすことができます。

2023/11/17 - Amazon OpenSearch Ingestion now supports migrating your ElasticSearch indexes to Amazon OpenSearch Service

Amazon OpenSearch Ingestion を使用すると、Elasticsearch バージョン 7.x クラスターから最新バージョンの Amazon OpenSearch Service 管理対象クラスターおよびパブリックおよび VPC サーバーレス コレクションの両方にデータを移行できるようになり、データを移行するために Logstash などのサードパーティ ツールを使用する必要がなくなります。このリリースにより、2.x バージョンの Amazon OpenSearch Service 管理対象クラスターからサーバーレス コレクションにデータを移行できるようになります。

さらに、Amazon OpenSearch Ingestion を使用して、Amazon OpenSearch サーバーレス コレクション間でインデックスを複製および移行できるようになりました。

2023/11/17 - Amazon OpenSearch Ingestion announces support for persistent buffering

Amazon OpenSearch Ingestion は、プッシュベースのソースからストリーミング データを取り込むときに永続的なバッファリングを提供するようになり、データの耐久性を提供し、データ取り込みアーキテクチャを簡素化します。

2023/11/22 - Amazon OpenSearch Service で Neural Sparse Retrieval のサポートを開始

OpenSearch Service 2.11 に、OpenSearch Neural Sparse Retrieval が追加されました。これにより検索の際に、意味理解を向上させながら、計算コストと計算レイテンシーを低く抑え、字句検索に近い形で、検索アプリケーションに使用できる新たな検索手法が実現します。

APIの変更点

2023/11/17 - Amazon OpenSearch Ingestion - 6 updated api methods

OpenSearch インジェスト パイプラインの作成または更新時に永続バッファーを有効にするためのサポートを追加します。Pipeline および Pipelinesummary 応答モデルにタグを追加します。

AWS Lake Formation

新機能・アップデート

2023/11/21 - AWS Lake Formation data filters now support permissions on nested data

AWS Lake Formation は、お客様がデータフィルターを使用してネストされたテーブルのサブフィールドにアクセス許可を適用できるようになりました。構造体内の特定の列など、より詳細なフィールドに対してアクセス許可を付与できます。ネストされたフィールドに対する権限により、顧客はより詳細な権限を得ることができ、データの構造をより柔軟にビジネス ニーズに適合させることができます。

AWS Clean Rooms Service

APIの変更点

2023/11/14 - AWS Clean Rooms Service - 6 updated api methods

この機能により、コラボレーション作成者は、クエリを実行できるメンバー、またはクエリのコンピューティング コストを請求されるコラボレーション内の別のメンバーを構成できるようになります。

最後に

2023年11月に発表された、AWSのアナリティクス関連のアップデートについて、メンバーでピックアップした情報についてご紹介しました。

今月は、re:Invent2023の開催月ということもあり、事前に大きなアップデートが多くありました。私がイチオシのアップデートは、Amazon QuickSightの「新しい分析エクスペリエンス」という、UIの刷新です。個人的には、某有名なBIツールにインタフェースが近くなり使い勝手が良くなり、これはre:Inventのキーノートで発表しても良いぐらいのインパクトのあるアップデートだと思います。

また、AWS Glueテーブルの列レベルの統計の生成をサポートとそれに伴う、Redshift Spectrumのカラムレベル統計のサポートやAhtenaのCBO対応です。データレイクのパフォーマンス改善という観点でとても重要なアップデートです。Ahtenaだと、2倍パフォーマンスが改善したという例も紹介されています。

まだまだ、進化が尽きません、re:Invent2023が楽しみですね。

クラスメソッド データアナリティクス通信(AWSデータ分析編) - 2022年12月号は以上です。後は、re:Invent2023を思う存分楽しんでください!