クラスメソッド データアナリティクス通信(AWSデータ分析編) – 2024年1月号 #AWSreInvent

2024.01.09

データアナリティクス事業本部 コンサルティングチームの石川です。コンサルティングチームメンバーを中心に、日々AWSのアナリティクス関連サービスのアップデートとそのブログを追っています。

re:Invent2023では、Amazon Redshiftの関連のアップデートが半数近くを占める事態となり、

11月下旬から12月上旬にかけて、re:Invent2023があり大きなアップデート満載です!

ということで、今回は re:Invent2023の開催期間(現地時間)の11/26から12/末までのアップデートを紹介します。

なお、re:Invent2023のアナリティクス関連のアップデートについては以下のイベントでも紹介しています。

Amazon Redshift

新機能・アップデート

2023/11/26 - Amazon Redshift がデータ共有による複数のデータウェアハウスからの書き込みをサポート (プレビュー)

Amazon Redshiftは、パブリックプレビューでデータ共有を介した複数のデータウェアハウスからの書き込みクエリをサポートしました。AWSアカウント内またはアカウント間で読み取りと書き込みの両方のクエリをデータ共有で実行できるようになりました。

下記のブログにて、実際に試してみました。

2023/11/26 - AWS Amazon Redshift ML での大規模言語モデルのサポートを発表 (プレビュー)

Amazon Redshift MLは、パブリックプレビューで大規模言語モデルをサポートしました。Redshift MLの一部としてAmazon SageMaker JumpStartで事前トレーニング済みの公開されているLLMを分析に活用できるようになりました。

Amazon Redshift MLは、大規模言語モデル(LLM) をサポートするために使い慣れたSQLコマンドを使用して機械学習モデルを作成、トレーニング、デプロイできる機能です。

Amazon Redshift MLが、大規模言語モデルを活用できるようにするためには、Amazon SageMaker JumpStartの大規模言語モデルを最適な設定、デプロイする機能と連携します。Amazon SageMaker JumpStartは、MetaのLlama2やTIIのFalcon、rinna株式会社から公開されている大規模言語モデルなどをJumpStartから利用できます。

Redshift ML の一部としてAmazon SageMaker JumpStartで事前トレーニング済みの公開されている LLM を活用できるようになり、LLM のパワーを分析に活用できるようになりました。たとえば、Amazon Redshift で製品フィードバック データを推論し、LLM を使用してフィードバックを要約し、エンティティ抽出、センチメント分析、製品フィードバック分類を実行できます。

2023/11/27 - Redshift でプロビジョニングされた同時実行スケーリングとサーバーレス自動スケーリングが Create Table As Select (CTAS) を新たにサポート

Amazon Redshiftが自動スケーリングのCREATE TABLE AS SELECT (CTAS) クエリがサポートしました。今後、追加のコンピューティングを使用して抽出、変換、ロード (ETL) やその他の書き込みワークロードがスケールできるようになりました。

Amazon Redshiftは、プロビジョニングされたクラスタ(Provisioned Cluster)と、サーバレスの2種類あります。前者はインスタンスによってクラスタを構成するタイプ、後者はクエリのリクエストを受信するとインスタンスが起動されるサーバレスなクラスタです。違いがありますので、それぞれ分けて解説します。

プロビジョニングされたクラスタ(Provisioned Cluster)の自動スケーリングの場合

プロビジョニングされたクラスタ(Provisioned Cluster)の自動スケーリングは、正確には「同時実行スケーリング」(Concurrent Scaling)という機能で、同時実行しているクエリの数がしきい値を超えると、自動的にスケーリングクラスタが起動され、読み書きのクエリがオフロードされます。今回、同時実行スケーリングでCREATE TABLE AS SELECT (CTAS) クエリがサポートされました。

Redshift Serverlessの自動スケーリングの場合

Serverlessの自動スケーリングは、同時実行しているクエリの数がしきい値を超えると、自動的にRPU(Redshift Processing Unitsというコンピューティングの単位)がスケーリングされ、読み書きのクエリがオフロードされます。今回、自動スケーリングでCREATE TABLE AS SELECT (CTAS) クエリがサポートされました。

2023/11/27 - Amazon Redshift Serverless、AI 主導のスケーリングと最適化を発表 (プレビュー)

AWS re:Invent 2023のMonday Night Liveにて、プレビュー提供のAmazon Redshift ServerlessのAIによるスケーリングと最適化機能の発表がありました。

この機能を搭載したRedshift Serverlessは、データ量の変化・同時接続ユーザー・クエリの複雑さなどの、ワークロードにおける主要な観点の変化に応じて自動的にスケーリングします。

内部テストでは、手動での調整なしで、変化のあるワークロードに対してコストパフォーマンスが最大10倍向上することが実証されているそうです。

従来の機械学習を用いた同時実行数ベースの自動スケーリングから、AIによるデータ量の変化・同時接続ユーザー・クエリの複雑さなど、ワークロードにおける様々な変化に応じて自動スケーリングできるようようになる点が大きな違いです。

プレビューの段階ですが、以下のように「Price-performance targets」と「ベースRPU容量」の2つの戦略のいずれかを選択できます。

2023/11/27 - Amazon Redshift がネストされたオブジェクトへの新しいきめ細かなアクセスコントロール機能を発表 (プレビュー)

先月、AWS Lake Formation のデータフィルターで、ネストされたデータに対するアクセス許可をサポートに続いて、Amazon Redshiftデータレイク分析、つまりRedshift SpectrumとAWS Lake Formationを用いてネストされたデータのクエリをサポートがパブリックプレビューで追加になりました。

Amazon Redshiftデータレイク分析は、Parquet、ORC、JSON、および Ion ファイル形式のネストされたデータのクエリをサポートしていますが、ネストされたデータに AWS Lake Formation の FGAC(Fine-Grained Access Control) を適用し、クエリを実行できるようになりました。Amazon Redshift の DDM(Dynamic Data Masking: 動的データマスキング) を使用して、データウェアハウス内の機密データを保護できます。DDM ポリシーをデータ型が SUPER である列のスカラー属性に適用できます。SUPER データはマスキングポリシーで定義されたマスキング関数に基づいてマスクされます。SUPER オブジェクトのフルパスを入力パスおよび出力パスとして使用できます。

2023/11/27 - Amazon Redshift、クエリのパフォーマンスを最適化する多次元データレイアウトを発表 (プレビュー)

Amazon Redshift は、パブリックプレビューで反復的なクエリのパフォーマンスを最適化する新しいテーブルソートメカニズムである多次元データレイアウトのソートキーをサポートしました。

テーブルの物理列ではなくフィルター述語によってテーブルのデータをソートする新しいタイプのソートキーです。多次元データレイアウトの並べ替えキーにより、特にクエリに反復スキャンフィルターが含まれる場合、テーブルスキャンのパフォーマンスが大幅に向上します。

Amazon Redshiftは、すでに自動テーブル最適化(ATO) によって、自動的にソートキーと分散キーを最適化する機能があります。さらにATOのAmazon Redshiftのソートキーアドバイザーアルゴリズムによって強化された追加機能が多次元データレイアウトのソートキーです。

2023/11/27 - Amazon Redshift、データレイクのテーブルに対するマテリアライズドビューの増分更新をサポート (プレビュー)

Amazon Redshift は、パブリックプレビューでRedshift Spectrumによるデータレイクテーブルをソースとしたマテリアライズドビューの増分リフレッシュをサポートしました。

Amazon Redshiftのマテリアライズドビューは、クエリの事前計算された結果セットを保存することで、大規模なテーブル、特に集計や複数テーブルの結合でのクエリの実行を高速化します。マテリアライズドビューの増分リフレッシュ機能とは、ソーステーブルの変更を自動的に識別し、ソーステーブルの差分データを効率的に更新します。

2023/11/28 - AWS が Amazon DynamoDB と Amazon Redshift のゼロ ETL 統合を発表

Amazon DynamoDBからAmazon RedshiftへのZero-ETL がプライベートプレビューで利用できるようになりました。このZero-ETL 統合は、DynamoDBで実行される本番環境のワークロードには影響しません。データが DynamoDB テーブルに書き込まれると、Amazon Redshift でシームレスに利用できるようになるため、お客様は抽出、変換、ロード (ETL) 操作を実行するための複雑なデータパイプラインを構築して維持する必要がありません。アクセス特性が異なるDynamoDBとRedshiftのデータをニアリアルタイムの分析や機械学習 (ML) をできるようになります。

なお、米国東部 (オハイオ) リージョン限定ですが、プライベートプレビューに参加したい方は、下記のサイトから登録してください。

2023/11/28 - AWS が Amazon Aurora PostgreSQL と Amazon Redshift のゼロ ETL 統合 (パブリックプレビュー) を発表

先々月のAmazon Aurora MySQLのZero-ETL統合のGAに続き、Amazon Aurora PostgreSQLもZero-ETL統合のパブリックプレビューが発表になりました。

これにより、Amazon Aurora からのペタバイト規模のトランザクションデータに対して Amazon Redshift を使用し、ほぼリアルタイムの分析や機械学習 (ML) を実現します。

Amazon Aurora に書き込まれてから数十秒以内にRedshiftにデータが複製されます。Zero-ETL統合自体の料金は無料というのも嬉しいです。

Amazon Auroraは、binlog有効化が必要ですが、新たにサポートされたEnhanced binlogを利用することで、コンピュートリソースのパフォーマンスの影響を非常に小さくできます。また、Amazon AuroraのストレージレイヤとRedshift Managed Storage(RMS)が統合、DBインスタンスのパフォーマンスの影響なく直接データ同期します。エラーが発生して同期ができない場合も自動で再同期する仕組みを備えているそうです。

引用: 第三十七回 ちょっぴり DD - その ETL パイプラインもういらないかも?zero-ETL 総まとめ! 

Aurora PostgreSQL と Amazon Redshift のゼロ ETL 統合 (パブリックプレビュー) は、米国東部 (オハイオ) リージョン内の Aurora PostgreSQL 15.4 で、プロビジョニング済みの Amazon Aurora のほか、Amazon Redshift Serverless と RA3 のインスタンスタイプでご利用いただけます。

2023/11/28 - AWS が Amazon RDS for MySQL と Amazon Redshift のゼロ ETL 統合を発表 (パブリックプレビュー)

Amazon RDS for MySQLもZero-ETL統合のパブリックプレビューが発表になりました。

これにより、Amazon RDS for MySQL からのペタバイト規模のトランザクションデータに対して Amazon Redshift を使用し、ほぼリアルタイムの分析や機械学習 (ML) を実現します。

Amazon RDS for MySQLはストレージが異なるため、初期のデータの同期はスナップショット、継続的なレプリケーションはCDCデータを用います。そのため、料金はスナップショット費用とCDCデータ転送量が発生します。

引用: 第三十七回 ちょっぴり DD - その ETL パイプラインもういらないかも?zero-ETL 総まとめ! 

Amazon RDS for MySQL と Amazon Redshift のゼロ ETL 統合は、MySQL バージョン 8.0.28 以降の Amazon RDS を対象とするパブリックプレビューとして次の AWS リージョンで利用できます。米国東部 (オハイオ)、米国東部 (バージニア北部)、米国西部 (オレゴン)、アジアパシフィック (東京)、欧州 (アイルランド)。)

2023/11/29 - Amazon Q の生成系 SQL が Amazon Redshift クエリエディタで利用可能に (プレビュー版)

Amazon Redshift は、パブリックプレビューでAmazon Q generative SQL in Amazon Redshift Query Editorという、データから抽出したいことを自然言語で問い合わせして、SQLを生成する新機能が発表されました。

生成AI(Generative AI)をSQLに応用した生成SQL(Generative SQL)サービスです。具体的には、Amazon Redshift クエリエディタにデータから抽出したいことを自然言語で問い合わせすることで、SQLクエリの推奨事項が生成される機能です。この機能によって、アナリスト(非エンジニア)が効果的なSQLクエリを自然言語で迅速に作成できるようになります。

下記のAmazon Q generative SQL in Amazon Redshift Query Editor (ANT352)にて、そのデモをご覧いただけます。

Amazon Redshift クエリエディタの Amazon Q の生成系 SQL は、米国東部 (バージニア北部)、米国西部 (オレゴン) のリージョンでパブリックプレビュー版が利用可能です。プレビュー版の提供期間中は、Amazon Q の生成系 SQL を無料で試すことができます。

2023/11/29 - Amazon Redshift での Apache Iceberg のサポートの一般提供開始を発表

Amazon Redshiftは、Apache Iceberg テーブルのクエリが一般提供開始(GA)になりました。データ レイク上の Apache Iceberg テーブルにアクセスし、シームレスにデータウェアハウス内のデータと結合できるようになりました。

このリリースでは、Parquet データファイルと Apache Iceberg テーブルを使用した Zstandard 圧縮のサポートも導入され、より高い圧縮率と改善された圧縮/解凍パフォーマンスが提供されます。

Amazon Redshift での Apache Iceberg のサポートは、中国 (北京) と中国 (寧夏) を除くすべての AWS リージョンで使用できます。

2023/11/29 - Amazon Redshift Serverless の管理性とユーザビリティの機能強化を発表

Amazon Redshift は、Amazon Redshift Serverless の機能の管理性とモニタリングの強化を発表しました。

  • クロスアカウントクロス VPC
    • VPC 内の Redshift Serverless に、別の AWS アカウントの VPC からアクセスできるようになります
  • カスタムドメイン名 (CNAME)
    • アプリケーションのクライアント接続を設定して、デフォルトの URL よりも覚えやすいカスタムドメイン名を使用できるようになりました
  • スナップショットスケジューリング
    • スナップショットスケジュールを作成して、スナップショットの取得タイミングと保持期間を制御することができます
  • クロスリージョンコピー (CRC)
    • Serverless 用の CRC により、自分の Serverless 名前空間内のデータを、自分で選んだ別のリージョンに自動的にバックアップできるようになりました
  • Redshift コンソールにおけるサーバーレスの請求の可視性の向上
    • AWS アカウントに含まれる Redshift Serverless ワークグループごとに Redshift コンソールで RPU 時間の請求メトリクスを簡単に追跡でき、Serverless のコストの把握と管理に役立ちます
    • RPU のピーク使用量をインラインで確認できるようになったため、最大 RPU 時間の制限を簡単に設定できるようになりました
  • バージョントラッキング
    • コンソール上に Redshift Serverless のバージョンが示されて、データウェアハウスへのソフトウェア更新状況を把握できるようになりました

2023/11/29 - Amazon Redshift が行レベルセキュリティ強化の一般提供を発表

Amazon Redshift は、行レベルセキュリティ (RLS) ポリシーでの CONJUNCTION TYPE のサポートと、標準ビューと遅延バインドビューでの RLS のサポートを発表しました。これにより、きめ細かなアクセス制御を適用し、ベースとなるデータが変化したりユーザー権限が変更されたりした場合でも、表示を許可された行にのみユーザーがアクセスできるようにすることができます。

CONJUNCTION TYPE を使用すると、複数の RLS ポリシーを AND または OR 演算によりテーブルレベルで組み合わせることができます。CONJUNCTION TYPE は ALTER TABLE コマンドで設定できます。

2023/11/29 - Amazon Redshift がメタデータセキュリティのサポートを開始してマルチテナントアプリケーションを簡素化

Amazon Redshift がメタデータセキュリティのサポートを開始し、管理者がユーザーのロールと権限に基づいてカタログデータの可視性を制限できるようになりました。ユーザーが現在表示できるのは、自分がアクセスできるデータベース、スキーマ、テーブル/ビューのメタデータだけです。これによりお客様はマルチテナントアプリケーションを、プロビジョニングされたクラスターまたは Serverless 名前空間にデプロイすることができます。

プロビジョニングされたデータウェアハウスまたはサーバーレスデータウェアハウスのメタデータセキュリティを有効にするには、「ALTER SYSTEM set metadata_security=true」コマンドを実行します。

2023/12/04 - Amazon Redshift で SUPER データ型の列サイズのサポートを 16 MB に拡張

Amazon Redshift は、 従来の1 MB に対して最大 16 MB のサイズのラージオブジェクトを SUPER データ型で保存できるようになりました。JSON、PARQUET、TEXT、CSV ソースファイルから取り込む場合、半構造化データまたはドキュメントを最大 16 MB の SUPER データ型の値として読み込むことができます。

2023/12/18 - Amazon Redshift が Amazon QuickSight と AWS Lake Formation を使用するシングルサインオンをサポート

Amazon QuickSight や Amazon Redshift クエリエディタから Microsoft Entra ID、Okta、Ping、OneLogin などの ID プロバイダー (IdP) の ID を使用してシングルサインオンで Amazon Redshift にアクセスできるようになりました。管理者は、Redshift で組織の IdP のユーザーとグループを使用してデータへのきめ細かなアクセスを管理し、AWS CloudTrail でユーザーアクセスを監査できます。

APIの変更点

2023/11/30 - Redshift Serverless - 10 new 10 updated api methods

このリリースでは、Amazon Redshift Serverless に次のサポートが追加されています。

1) クロスアカウント、クロス VPC 2) リージョン間でのスナップショットのコピー 3) スナップショット作成のスケジュール設定 4) リカバリポイントからのテーブルの復元

Amazon Athena

新機能・アップデート

2023/11/28 - Amazon Athena と Amazon S3 Express One Zone でデータレイクのクエリを高速化

Amazon S3 Express One Zoneは、S3 Standardストレージクラスよりも最大10倍優れたパフォーマンス、一貫した1桁ミリ秒のレイテンシで毎秒数十万のリクエストを処理するように設計された新しいS3ストレージクラスです。Amazon Athena と Amazon S3 Express One Zone ストレージクラスに保存されたデータ使用すると、S3 Standardよりも最大2.1倍高速なクエリパフォーマンスの改善されると説明されています。

Athenaの機能というよりは、S3 Express One Zoneという新しいS3のストレージクラスのベースラインパフォーマンスが10倍速いのでこのストレージクラスを利用したサービスは軒並み速くなってるということです。利用費はS3 Standerdの約7倍、月額課金なのはご注意ください。

2023/12/11 - Amazon Athena がデータのアクセスと監査の用途向けにユーザー ID のサポートを開始

AWS IAM アイデンティティセンターを使用した信頼性の高い ID 伝播のサポートを開始しました。これにより、ユーザー ID に基づいてデータやリソースへのアクセスを管理および監査できるようになります。

APIの変更点

2023/12/05 - Amazon Athena - 12 updated api methods

インタラクティブなクエリに対する IdentityCenter 対応リクエストの追加です。

AWS Glue

新機能・アップデート

2023/11/26 - AWS Glue Data Quality が異常検出と動的ルールを発表

これまでのGlue Data Qualityは、ユーザーが定義したルールに従って、データの品質検査を実施できる機能です。今回のアップデートでは、データの変化を監視し、監視しているメトリクスが予想される値の範囲外であった場合に検知します。時間の経過によるデータの変化や、静的なルールセットで定義していない異常を検出可能です。

2023/11/27 - AWS Glue データカタログ、AWS の分析エンジンを使用したマルチエンジンビューをサポート

AWS Glue データカタログでは、複数のエンジンをサポートする SQL ビューの作成、管理、アクセスコントロールのサポートを開始いたしました。お客様は、AWS Glue データカタログで SQL ビューを作成し、Amazon Athena、Amazon Redshift、EC2 上の Amazon EMR を使用した Spark などの SQL エンジンからそのビューに対してクエリを実行できます。

この機能は、バージニア北部、オハイオ、オレゴン、アイルランド、東京など、複数の AWS リージョンでプレビュー版としてご利用いただけます。この機能の使用を開始するには、ビューに関するドキュメントを参照してください。

2023/11/29 - AWS GlueのAmazon Q統合が発表、自然言語でのデータ統合パイプライン作成が可能に(Coming Soon)

生成系AIアシスタントサービスであるAmazon Qを使うことで、自然言語でGlueによるデータパイプラインを作成できるようです。これにより、チャットインターフェースで自然言語でのトラブルシューティングも可能になり、Glue Jobの作成がスムーズになります。

APIの変更点

2023/11/30 - AWS Glue - 2 updated api methods

GetDataQualityResult および BatchGetDataQualityResult API に観察およびアナライザーのサポートを追加します。

2023/12/22 - AWS Glue - 3 updated api methods

このリリースでは、次の API にクエリセッションコンテキストの追加構成が追加されています。

  • GetUnfilteredTableMetadata
  • GetUnfilteredPartitionMetadata
  • GetUnfilteredPartitionsMetadata

Amazon QuickSight

新機能・アップデート

2023/11/28 - Amazon Q in QuickSight で生成系 BI 機能を使用してデータ調査を簡素化 (プレビュー)

従来のQuickSight Q は、QuickSight Q に自然言語で問い合わせすることでダッシュボードなどに関するインサイトを提供してくれる機能を提供していました。その後、Bedrock がリリースされたタイミングで、QuickSight Q に生成 BI 機能が追加され、生成 AI 機能を使って自然言語で実現したい分析を伝えることでダッシュボードや分析を生成する機能が提供さてました。

今回のアップデートは QuickSight Q アドオン機能として、新たに データストーリー機能エグゼクティブサマリー機能が追加されました。

データストーリー機能

説明したいことと含めたいビジュアルを追加すると、いい感じでそれに沿った内容でストーリーと呼ばれる複数ページで構成される文章入りのコンテンツを生成してくれます。いわささん検証したブログの中では、日本語で指定して、いい感じでレポートが作成されています。すごいを超えて、怖いくらいいい感じです。

エグゼクティブサマリー機能

複数のビジュアルやシートで構成されたダッシュボードのサマリをさっと生成してくれる機能になっています。便利機能を超えて、データに関する考察の壁打ち相手にもなる、これまた怖いくらいいい感じです。

2023/12/06 - Amazon QuickSight の SPICE の取り込みパフォーマンスが並列取り込みにより最大 4 倍向上

従来のSPICE は 1TB または 10 億行規模のデータセットの取り込みプロセスに数時間以上かかることがありました。今回のアップデートで、並列取り込みメカニズムを活用した取り込みパフォーマンスの向上により、このような大規模なデータセットのデータ更新時間を大幅に短縮できます。以前は 3 時間以上かかっていたデータセットの取り込み時間が全体的に最大 75% 短縮、パフォーマンスが 4 倍向上しました。

Amazon QuickSight Standard Edition と Amazon QuickSight Enterprise Edition において利用可能です。

APIの変更点

2023/12/14 - Amazon QuickSight - 1 new 10 updated api methods

ダッシュボード リンクのサポートを更新します。 SingleAxisOptions のサポート。 散布図クエリ制限のサポート。

2023/12/29 - Amazon QuickSight - 3 updated api methods

さまざまなパーティションに対する LinkEntityArn サポートを追加します。 UpdateDashboardLinks API に UnsupportedUserEditionException を追加します。 新しい読者エクスペリエンス トピックのサポートを追加します。

Amazon Kinesis

新機能・アップデート

2023/11/01 - Amazon Kinesis Data Firehose がゼロバッファリングのサポートを開始

ゼロバッファリングは、 Amazon S3、Amazon OpenSearch Service、Amazon Redshift、およびサードパーティの HTTP の宛先に数秒でデータを配信できるため、リアルタイムのユースケースが可能になります。

現在、Amazon Kinesis Data Firehose は、少なくとも 60 秒間データをバッファリングしていますが、配信前にデータをバッファリングしないように Amazon Kinesis Data Firehose ストリームを設定でき、ほとんどのストリームは 5 秒以内に配信する設定が可能になります。

若槻龍太さんも上記のブログの中で解説書いていますが、ユースケースによっては大量の小さなファイルが作成され、AthenaやGlueの読み込みオーバーヘッドが大きく、パフォーマンスの低下の要因にもなりうるため、利用用途ついてはご検討してください。

APIの変更点

2023/12/14 - Amazon Kinesis Firehose - 3 updated api methods

  1. Splunk 宛先に構成可能なバッファリング ヒントが追加
  2. サポートされている宛先に対して構成可能な最小バッファリング間隔が短縮

Amazon EMR

新機能・アップデート

2023/11/28 - Amazon EMR と Amazon S3 Express One Zone でデータの処理と分析を加速

Amazon EMRは、Amazon S3 Express One Zoneストレージクラスに保存されたデータでクエリを高速化できるようになりました。

Amazon S3 Express One Zoneは、S3 Standardストレージクラスよりも最大10倍優れたパフォーマンス、一貫した1桁ミリ秒のレイテンシで毎秒数十万のリクエストを処理するように設計された新しいS3ストレージクラスです。Amazon Athena と Amazon S3 Express One Zone ストレージクラスに保存されたデータ使用すると、S3 Standardよりも最大4.0倍高速なパフォーマンスの改善されると説明されています。

2023/12/15 - EC2 での Amazon EMR が高可用性インスタンスフリート設定のサポートを開始

EC2 クラスターでの高可用性 EMR がインスタンスフリート設定でも利用できるようになりました。高可用性インスタンスフリートの EMR クラスターには 3 つのオンデマンドプライマリノードがあり、YARN Resource Manager、HDFS Name Node、Spark などの Hadoop アプリケーションがサポートされます。1 つのプライマリノードに障害が発生した場合、または Yarn Resource Manager や NameNode などの重要なプロセスがクラッシュした場合は、EMR がクラスター内の残りのプライマリノードのいずれかにフェイルオーバーします。

Amazon EMR バージョン 5.36.1、6.8.1、6.9.1、6.10.1、6.11.1、6.12 以降で高可用性インスタンスフリートクラスターを起動できます。

2023/12/26 - Amazon EMR Studio now supports user level permissions for Git Repositories

データサイエンティストやデータエンジニアが、PySpark、Python、Scala、R で記述されたビッグデータおよび分析アプリケーションを簡単に開発、視覚化、デバッグできるようにする統合開発環境 (IDE) です。 Amazon EMR Studio で Git リポジトリに対するユーザーレベルのアクセス許可を設定できることを発表しました。

2023/12/29 - Amazon EMR Release 7.0 now supports Amazon Linux 2023

Amazon EMR 7.0 がリリースされました。 Amazon EMR 7.0 は、Amazon Linux 2023 に同梱されており、デフォルトで Amazon Corretto リリース 17 (OpenJDK 上に構築) 上で実行される Apache Spark 3.5 を備えています。

また、最新バージョンの Python 3.9、glibc 2.34 をサポートしており、環境全体でパッケージのバージョンと更新の一貫性を確保できます。最新リリースには、AWS SDK for Java 2.20.160 が同梱されており、Apache Flink 1.18 および最新のオープンテーブル形式 (Apache Iceberg 1.4.2、Apache Hudi 0.14、および Delta 3.0) の最新バージョンへのアップグレードが含まれています。

Amazon EMR リリース 7.0 には、クラスターを自動的に観察および監視できる新しい拡張機能が付属しています。システムメトリクスを Amazon CloudWatch、Amazon Managed Service for Prometheus、または自己管理型 Prometheus クラスターに公開することを選択し、CloudWatch ダッシュボード、Amazon Managed Grafana、または API を使用してメトリクスを分析できます。

APIの変更点

2023/12/27 - Amazon EMR - 1 new api methods

顧客がクラスター起動後にクラスター属性を変更して自動終了するためのサポートを追加

Amazon OpenSearch Service

新機能・アップデート

2023/11/29 - Amazon OpenSearch Serverless 用ベクトルエンジンの一般提供を開始

AWS はAmazon OpenSearch Serverless用ベクトルエンジンの一般提供を発表しました。 OpenSearch Serverless 用ベクトルエンジンは、シンプルでスケーラブルかつ高性能なベクトルデータベースです。これにより、デベロッパーは基盤となるベクトルデータベースインフラストラクチャを管理することなく、機械学習 (ML) で拡張された検索エクスペリエンスを実現し、生成系人工知能 (AI) アプリケーションを構築できます。

2023/11/28 - AWS が Amazon DynamoDB と Amazon OpenSearch Service のゼロ ETL 統合を発表

Amazon DynamoDB と Amazon OpenSearch Service のゼロ ETL 統合により、Amazon DynamoDB データに対して全文検索やベクトル検索などの高度な検索機能が利用できるようになります。Amazon DynamoDB から Amazon OpenSearch Service にニアリアルタイムにデータ同期、Amazon BedrockのベクトルDBとしてすぐに活用できるようになります。

2023/11/29 - Amazon S3 との Amazon OpenSearch Service ゼロ ETL 統合 (プレビュー版) が利用可能に

Amazon S3 と Amazon OpenSearch Service のゼロ ETL 統合により、Amazon S3 データに対してデータをロードすることなく全文検索やベクトル検索などの高度な検索機能が利用できるようになります。

OpenSearch Service 用の新しい Amazon S3 ダイレクトクエリデータソースを作成することで簡単に始められます。新しいデータソースは、AWS Glue Data Catalogを使用して、S3 バケットを表すテーブルを管理します。データソースを作成したら、OpenSearch ダッシュボードでAmazon S3テーブルとデータのインデックスとクエリデータを設定できます。

データソースとしてGlueを通したS3データをセットしたら、あとはSQLクエリを書けばOpenSearch Dashboard上にログデータの分析用グラフが表示されます。

2023/12/18 - Amazon OpenSearch Service がニューラル検索のマルチモーダルサポートを追加

Amazon OpenSearch Service は、OpenSearch 2.11 デプロイのニューラル検索でのマルチモーダルサポートを追加しました。これにより、ビルダーはマルチモーダル検索アプリケーションを作成して運用できるようになり、区別のできない手間のかかる作業を大幅に軽減できます。

APIの変更点

2023/11/29 - OpenSearch Service Serverless - 2 updated api methods

Amazon OpenSearch サーバーレス コレクションは、standby-replicas と呼ばれる追加の属性をサポートしています。 これにより、コレクションの冗長性を有効にするかどうかを指定できます。

2023/11/29 - Amazon OpenSearch Service - 5 new api methods

Amazon S3 との新しいゼロ ETL 統合のための Amazon OpenSearch Service サポートを開始します。 お客様は、Amazon S3 への直接クエリ データ ソースをプログラムで管理できるようになりました。

AWS Lake Formation

APIの変更点

2023/12/22 - AWS Lake Formation - 1 updated api methods

このリリースでは、クエリ セッション コンテキストの GetTemporaryGlueTableCredentials に追加の構成が追加されています。

AWS Clean Rooms Service

新機能・アップデート

2023/11/29 - AWS Clean Rooms ML のプレビュー版を提供開始

AWS Clean Rooms ML (プレビュー) は、未加工データを共有せずに予測的なインサイトを生成できるようになります。事前に訓練した類似モデルをコラボレーションに関連付け、パートナーがモデルを利用できるようにするサービスです。

AWS Clean Rooms ML (プレビュー) は、東京リージョンの AWS Clean Rooms の機能として利用できます。

2023/11/29 - AWS Clean Rooms Differential Privacy がプレビューで利用可能に

AWS Clean Rooms Differential Privacy (プレビュー)は、数回のクリックで数学的に裏付けられた直感的なコントロールにより、ユーザーのプライバシーを保護するのに役立つ新機能です。フルマネージド機能であるため、ユーザーの再識別を防ぐために、事前の差分プライバシーの経験は必要ありません。

データベースから統計的な出力を取得する際の差分プライバシーというプライバシー基準を満たすようにクエリにノイズを付与することにより、意味のある洞察を行うために十分な正確性を維持しつつ、個人の寄与を隠蔽したクエリ結果を出力する機能です。

AWS Clean Rooms Differential Privacyを使うことで、差分プライバシーを実装するための深い理解をしていなくても、AWS Clean Roomsのフルマネージド機能として利用することができます。

2023/12/20 - AWS Clean Rooms で ISO および SOC に対するカスタマーコンプライアンスのサポートを拡張

AWS Clean Rooms は、国際標準化機構 (ISO) とSystem and Organization Controls (SOC) レポートの認証を追加しました。Amazon Web Services (AWS) では、認証を維持するための広範な統制に対する監査を行い、企業とその顧客情報の機密性、完全性、および可用性に影響を与える可能性のある情報セキュリティリスクを適切に管理しています。

Amazon DataZone

新機能・アップデート

2023/11/28 - Amazon DataZone での説明に関する AI の推奨事項 (プレビュー)

ビジネス データカタログを強化することで、データ検出、データ理解、データ使用を向上させる、Amazon DataZone の新しい生成 AI ベース機能のプレビューを発表しました。データから包括的なビジネスデータの説明とコンテキストを生成し、影響力のある列を強調表示し、分析ユースケースに関する推奨事項を含めることができます。

Amazon DataZone の記述に関する AI 推奨を使用すると、データ消費者は分析に必要なデータテーブルと列を特定できるため、データの発見可能性が向上し、データ生産者との往復通信が削減されます。

APIの変更点

2023/11/29 - cleanrooms-ml - 25 new api methods

AWS Clean Rooms ML API のパブリック プレビュー SDK リリース。

2023/11/29 - AWS Clean Rooms Service - 17 new 7 updated api methods

AWS Clean Rooms は、ユーザー識別の試みから保護する差分プライバシーと、二者がデータ内の類似したユーザーを識別できるようにする機械学習モデリングを提供するようになりました。

Amazon MSK

新機能・アップデート

2023/11/27 - Amazon MSK が、新たにプロビジョニングされたクラスター用に Graviton3 ベースの M7g インスタンスのサポートを開始

AWS Graviton3 ベースの M7g インスタンスが、新たにプロビジョニングされた Amazon Managed Streaming for Apache Kafka (Amazon MSK) クラスターで一般に利用可能になりました。

M7g インスタンスで実行される MSK プロビジョンドクラスターは、M5 インスタンスで実行される同等の MSK クラスターと比較して、料金/パフォーマンスは最大 24% 改善され、書き込みと読み取りのスループットは最大 29% 向上し、CPU 使用率は最大 27% 削減されます。

最後に

11月下旬から12月上旬にかけて、re:Invent2023が開催されて大きなアップデートが多くありました。 私がイチオシのアップデートは、2つあります。

1つ目は「Zero-ETL」の拡充です。Amazon Redshift / RedshiftServerless の「Zero-ETL」は、OLTPとOLAPの混在するワークロードをHTAP(Hybrid Transactional/Analytical Processing)ではなくZero-ETLというアプローチで解決することを提案してるのかと解釈しています。一方、OpenSearch Serviceの「Zero-ETL」は、BedrockのベクトルDBとしての可能性を広げる役割を担います。

2つ目は、生成AIを活用した 「Amazon Q」です。Analytics関連だけでもAmazon Q in QuickSight、Amazon RedshiftのQuery Editor v2、AWS GlueのAmazon Q 統合など、あらゆるAWSのサービスにおいて、「Q」対応が発表されました。今後もこの流れは続くでしょう。

個人的には、最大10倍優れたパフォーマンス、一貫した1桁ミリ秒のレイテンシで毎秒数十万のリクエストを処理するように設計された新しいS3ストレージクラス Amazon S3 Express One Zoneが気になります。将来的にキャッシュ用途をこのストレージに置き換えることができると大きなパフォーマンス改善が期待できそうです。

その他に、Amazon DataZoneの生成系AIベースのビジネスデータカタログ強化機能や、AWS Glue Data Qualityの異常検出の動的ルールサポートなど、既存サービスの機能の充実も発表されました。

クラスメソッド データアナリティクス通信(AWSデータ分析編) - 2023年01月号は以上です。

AWS Japan が公式のアップデート速報

紹介できなかったre:invent2023の全てのアップデートについてはこちらをご参照ください。

re:Invent2023の新サービスの紹介&デモ

AWS Japan主催のウェビナー、「ちょっぴりDD」で素晴らしいデモが見られますので、合わせて紹介します。なお、「ちょっぴりDD」最終回です。(泣)

第三十七回 ちょっぴり DD - その ETL パイプラインもういらないかも?zero-ETL 総まとめ!

スピーカー:アマゾン ウェブ サービス ジャパン合同会社 ソリューションアーキテクト 深見 修平さん

第三十七回 ちょっぴり DD - Amazon Q in QuickSight で生成系 AI を用いてダッシュボードをより効果的に活用する方法をご紹介!

スピーカー:アマゾン ウェブ サービス ジャパン合同会社 ソリューションアーキテクト 守田 凜々佳さん