クラスメソッド データアナリティクス通信(AWSデータ分析編) – 2024年6月号

Redshift Provisioned(プロビジョニング済みクラスタ)のデフォルトの分離レベルがスナップショット分離(Snapshot isolation)に変更、EMR Serverless は I/O 負荷の高いワークロードのパフォーマンスを向上させるシャッフル最適化ディスクを導入されました。QuickSightは、RedshiftのGetClusterCredentialswithIAM のサポートを開始やテーブルでの複数列ソートが可能に!
2024.06.11

クラスメソッドの石川です。日々AWSのアナリティクス関連サービスのアップデートとそのブログをご紹介します。

今月は、Redshift Provisioned(プロビジョニング済みクラスタ)のデフォルトの分離レベルが、スナップショット分離(Snapshot isolation)に変更になりました。EMR Serverless は、 I/O 負荷の高いワークロードのパフォーマンスを向上させるシャッフル最適化ディスクを導入されています。QuickSightは、RedshiftのGetClusterCredentialswithIAM のサポートを開始やテーブルでの複数列ソートが可能になりました。

他にもアップデートがあるので紹介します!

Amazon Redshift

新機能・アップデート

2024/05/22 - Amazon Redshift がプロビジョニング済みクラスターのデフォルトとしてスナップショット分離を発表

Amazon Redshift Provisioned(プロビジョニング済みクラスタ)のデフォルトの分離レベルが、直列化可能分離(Serializable isolation)からスナップショット分離(Snapshot isolation)に変更されました。

今後、Amazon Redshift Provisioned クラスタを新規構築したり、スナップショットからリストアした場合、分離レベルがスナップショット分離になります。これでRedshift Serverlessのデフォルトの分離レベルと同じになりました。もちろん、構築後に直列化可能分離に設定変更することも可能です。

直列化可能分離よりもスナップショット分離の方が並列性が高くなるのでパフォーマンスが向上しますが、直列化可能分離の厳密な正確性が保証されないトレードオフがあります。今日では、そこまでの厳密な正確性がむしろ不要なことが少なくないため、デフォルトの分離レベルがスナップショット分離に変更になったと考えられます。

Amazon QuickSight

新機能・アップデート

2024/05/08 - Amazon QuickSight、SPICE 容量の自動購入を提供開始

SPICE 容量の自動購入 API の提供され、プログラムによるSPICE容量の自動購入が可能になりました。

2024/05/20 - Amazon QuickSight が Redshift データソースのために GetClusterCredentialswithIAM のサポートを開始

Amazon QuickSight が、RedshiftのGetClusterCredentialswithIAMを通じて、IAMロールを使用した Redshift データソースへの接続をサポートしました。一時的なユーザーIDがIAM認証情報に暗黙的に紐づけられるようになりました。

2024/05/22 - Amazon QuickSight が SPICE CMK データ暗号化用のパブリック API をリリース

Amazon QuickSight は、SPICE データセットを暗号化して管理するためのカスタマーマネージドキー (CMK) のパブリック API のサポートを開始しました。

2024/05/30 - Amazon QuickSight がテーブルでの複数列ソートを開始

テーブル内の複数の列によるソートをサポートするようになりました。

APIの変更点

2024/05/16 - Amazon QuickSight - 2 new api methods

QuickSight カスタマー管理キー (CMK) を管理するための DescribeKeyRegistration および UpdateKeyRegistration API が追加されました。

Amazon EMR

新機能・アップデート

2024/05/01 - Amazon EMR Serverless で I/O 負荷の高いワークロードのパフォーマンスを向上させるシャッフル最適化ディスクを導入

Amazon EMR Serverless にシャッフル最適化ディスクが導入されました。

ストレージ容量の増加 (最大 2 TB) と IOPS の向上を実現し、I/O 負荷の高い Spark および Hive ワークロードのパフォーマンスが向上します。

Apache Spark や Apache Hive を使った大規模なデータ分析では、シャッフル処理と呼ばれる、データを並列処理するためにデータを再分散・再編成する I/O 負荷の高い処理が必要となります。従来の EMR Serverless では、エフェメラルストレージの容量と IOPS 性能が限られていたため、シャッフル処理がボトルネックとなり、ワークロードのパフォーマンスが低下していました。

新しいシャッフル最適化ディスクは、最大 2TB のストレージ容量と高いベースライン IOPS 性能を提供することで、シャッフル処理のパフォーマンスを大幅に向上させます。

2024/05/06 - Amazon EMR Serverless が Amazon Managed Service for Prometheus による Apache Spark ジョブの詳細なパフォーマンスモニタリングを発表

EMR Serverlessに、Amazon Managed Service for PrometheusによるApache Sparkジョブの詳細なパフォーマンスモニタリング機能が追加されました。

ジョブ固有のエンジンメトリクスの収集と分析、Sparkイベントのタイムライン、ステージ、タスク、エグゼキューターに関する情報の可視化、パフォーマンスのトラブルシューティングとワークロードの特性評価が可能になり、チーム全体で効率的にジョブのパフォーマンスを監視し、問題を迅速に発見・解決することができます。

2024/05/13 - Amazon EMR 7.1 で、モニタリングを強化するための追加メトリクスのサポートを開始

Amazon EMR 7.1 は、Apache Hadoop、YARN、Apache HBase アプリケーションのパフォーマンスと正常性をより詳細に監視するためのメトリクスが追加されました。

2024/05/24 - Connect your Jupyter notebooks to Amazon EMR Serverless using Apache Livy endpoints

Amazon EMR Serverless に Apache Livy エンドポイントが追加されました。

Apache Livyは、RESTインターフェースを介してSparkクラスターと対話できるサービスです。RESTインターフェースまたはRPCクライアントライブラリを使用して、SparkジョブやSparkコードの断片を簡単に送信できます。

Livy エンドポイントによって、Jupyterノートブックを安全に接続したり、Spark ワークロード管理やクラスターやサーバー管理不要になります。

APIの変更点

2024/05/23 - EMR Serverless - 3 updated api methods

Apache Livy Endpoint を使用してインタラクティブなワークロードを実行する機能が追加されました。

2024/05/30 - EMR Serverless - 1 new 4 updated api methods

Spark 構造化ストリーミングのサポートが追加されました。

Amazon DataZone

新機能・アップデート

2024/05/08 - Amazon SageMaker が Amazon DataZone と連携して、データと ML アセットに対するガバナンスの統一を支援

Amazon SageMakerとAmazon DataZoneの連携により、機械学習 (ML) 開発の効率化とガバナンス強化が可能になりました。

この連携によって、データとMLアセットへのアクセス集中化とデータガバナンスの統一などのML開発プロセスの簡素化できるようになります。

Amazon OpenSearch

新機能・アップデート

2024/05/16 - Amazon OpenSearch Ingestion でブループリントを簡単に見つけられる新しいユーザーインターフェイスをリリース

Amazon OpenSearch Ingestion に、ブループリント検索と設定の可視化を容易にする新しいユーザーインターフェイスが導入されました。

AWSコンソールでブループリントを簡単に見つけて、データソースの発見、設定管理、統合の迅速化、設定エラーの削減を実現します。これにより、IT技術者はより効率的にデータを収集し、分析することができます。

2024/05/20 - Amazon OpenSearch Service がクロスクラスターアラートモニターをリリース

Amazon OpenSearch Serviceのアラートプラグインに、新しくクロスクラスターモニタリング機能が追加されました。

この機能により、複数のOpenSearchクラスターのデータを一つの場所から監視・管理できるようになります。

この機能は分散されたOpenSearch環境の監視を簡素化し、システムの信頼性と運用効率を高めるものです。特に、マイクロサービスアーキテクチャやクラウドネイティブな環境を運用するIT技術者にとって有益な機能です。

2024/05/21 - Amazon OpenSearch Service が OpenSearch バージョン 2.13 のサポートを開始

Amazon OpenSearch ServiceでOpenSearch 2.13が利用可能になりました。

主な改善点は、検索パフォーマンス、レジリエンシー(回復力)、OpenSearch Dashboard、そしてAI機能の強化です。

同時セグメント検索による並列処理やFAISS-engineベースのk-NNインデックスによるメモリ最適化によるパフォーマンス改善、I/Oベースのアドミッションコントロールによってレジリエンシー向上します。

AI機能の強化は、高度な検索機能のためのパイプライン構成を自動化するフローフレームワーク、AIソリューションをポータブルなテンプレートにパッケージ化するml-commonsリソースの自動設定、外部AI APIとの接続を自動化するテンプレートを提供する定義済みテンプレートとモデル統合(OpenAI、Amazon Bedrock、Cohereなど)です。

2024/05/22 - Amazon S3 との Amazon OpenSearch Service ゼロ ETL 統合の提供を開始

昨年のre:Invent2023で発表された Amazon OpenSearch Service と Amazon S3 のゼロ ETL 統合が一般提供開始(GA: Generally Available)になりました。

Amazon S3 に保存されているAWS サービスの運用ログ(VPC フロー、WAF、Elastic Load Balancer など)を、OpenSearch Service で直接クエリ可能にします。

データを物理的に移動(コピー)せずにアクセス可能で、OpenSearch Service から S3 のデータに対して直接クエリを実行なることで、複数のデータソースのログを S3 に一元的に集約し、OpenSearch で横断的に分析可能になります。

新機能はデータエンジニアリングの負荷を減らし、アナリストやセキュリティエンジニアが直接データにアクセスできるようにします。IT技術者にとって、インフラ管理の簡素化、リアルタイム分析の実現、そしてコスト最適化という3つのメリットがあります。

APIの変更点

2024/05/22 - Amazon OpenSearch Service - 3 updated api methods

Amazon S3 との Zero-ETL 統合の一部として構成されたデータ ソースのステータスを設定することで、そのデータ ソースを有効化または無効化するサポートが追加されました。

Amazon Kinesis Data Streams

新機能・アップデート

2024/05/21 - Amazon Kinesis Data Streams が AWS CloudTrail へのデータプレーンのロギングをサポート

Amazon Kinesis Data StreamsがCloudTrailへデータプレーンAPIのログを記録できるようになりました。

データプレーンAPIは、GetRecords、GetShardIterator、PutRecord、PutRecords、SubscribeToShardなどで、データの流れを直接操作します。これらのAPIのログをCloudTrailで記録することで、誰が、いつ、どのようにデータをアクセスや変更したかを詳細に追跡できます。

この機能により、セキュリティインシデントの調査、コンプライアンス要件の遵守、リスク管理が容易になります。CloudTrailコンソールやAPIを使用して、Kinesis Data Streamsでこのログ記録を有効化できます。

2024/05/24 - Introducing the Amazon Kinesis Data Streams Apache Spark Structured Streaming Connector for Amazon EMR

Amazon EMR用のSpark Structured Streaming向けKinesis Data Streamsコネクタをリリースしました。

このコネクタにより、Apache Sparkを使用してKinesis Data Streamsからのリアルタイムデータストリーミングアプリケーションの構築が容易になります。

EMR 7.1以降では、EMR on EKS、EC2、Serverlessに標準搭載されており、別途パッケージ化不要です。開発者は最適化されたSparkデータソースAPIを使ってビジネスロジックに集中できます。このコネクタは高速、スケーラブル、耐障害性に優れ、拡張ファンアウト消費もサポートしています。

AWS Glue

APIの変更点

2024/05/21 - AWS Glue - 16 updated api methods

CreateJob および UpdateJob API と JobRun 応答にメンテナンス ウィンドウを追加します。EXPIRED の新しいジョブ実行状態を追加します。

2024/05/29 - AWS Glue - 11 updated api methods

CreateJob および UpdateJob API にオプション フィールド JobMode を追加します。

AWS Lake Formation

APIの変更点

2024/05/17 - AWS Lake Formation - 1 new api methods

呼び出し元のプリンシパルのIDを返す新しいAPI、GetDataLakePrincipalを導入します。

最後に

大規模なデータ分析では、シャッフル処理と呼ばれる、データを並列分散処理するためにデータを再分散・再編成する I/O 負荷の高い処理が必要となります。データを処理する過程では欠かせないシャッフル処理ですが、同時にボトルネックの要因となり、ワークロードのパフォーマンスが低下の要因の一つです。EMR Serverlessの新しいシャッフル最適化ディスクは、最大 2TB のストレージ容量と高いベースライン IOPS 性能を提供することで、シャッフル処理のパフォーマンスを大幅に向上させます。個人的には、とても興味深いアップデートであり、Glueに導入して欲しい機能でもあります。また、このような仕組みはRedshiftにも応用することで再分散のパフォーマンス改善に効果的であると考えられます。今後の動向が気になるところです。

今月は、Redshift/Redshift Serverless、Athena、Glueの新機能やアップデートがあまりありませんでしたが、2024年6月20日と21日の2日間にわたり、AWS Summit Tokyoが開催されます。生成AI関連のみならず、この期間に大きなアナリティクス関連のアップデートがないか期待してます。基調講演、150を超えるセッション、250を超える EXPO コンテンツを体験し、皆様の学習にお役立いただけるよう、お時間のある方はご参加いただけることをおすすめします。