クラスメソッド データアナリティクス通信(AWSデータ分析編) – 2024年4月号

2024.04.01

クラスメソッドの石川です。日々AWSのアナリティクス関連サービスのアップデートとそのブログをご紹介します。

今月は、Amazon RedshiftのZero-ETL統合が待望のデータフィルタリングをサポートしました。このアップデートで、必要なテーブルをピンポイントかつRedshiftにニアリアルタイムで同期できるようになり、実用性が向上しました。 また、re:Invent2023でアナウンスのあったAmazon DataZoneのディスクリプションに対する AIリコメンデーションなどがサポートされました。放置されがちなメタデータをAIがいい感じで自動設定してくれます。Amazon DataZoneのAmazon Redshiftに対する機能強化もあります。

他にもアップデートがあるので紹介します!

Amazon Redshift

新機能・アップデート

2024/03/18 - AWS Secrets Manager で Amazon Redshift Serverless データウェアハウスのサポートを開始

AWS Secrets Managerは、マネジメントコンソールから直接、Amazon Redshift Serverless データウェアハウス のユーザー認証情報を作成、管理、自動ローテーション設定できるようになりました。

2024/03/20 - Amazon Aurora  MySQL と Amazon Redshift のZero-ETL 統合により、データフィルタリングと CloudFormation のサポートが発表されました

Amazon Aurora MySQL と Amazon Redshift のZero-ETL 統合におけるデータフィルタリングと CloudFormation サポートは、従来のZero-ETL 統合に2つの強力な機能を追加する新機能です。

データフィルタリング

従来のZero-ETL 統合は、すべての Aurora MySQL データベースとテーブルが自動的に Amazon Redshift にレプリケートされました。しかし、多くの場合、すべてのデータが分析に必要とは限りません。データフィルタリング機能により、特定のデータベースやテーブルのみを Redshift にレプリケートすることが可能になりました。この新機能によって以下のメリットがあります。

  • 必要なデータのみを Redshift にレプリケートすることでストレージコストの削減
  • 分析対象を絞り込むことでクエリのパフォーマンスの向上
  • プライバシーやセキュリティの観点から機密データの保護

CloudFormation サポート

従来のZero-ETL 統合の設定は、AWS マネジメントコンソールまたは CLI を使用して手動で行う必要がありました。CloudFormation サポートにより、統合に必要なリソースの設定とデプロイをテンプレートを使って自動化できるようになりました。

Amazon DataZone

新機能・アップデート

2024/03/18 - Amazon DataZone のディスクリプションに対する AIリコメンデーションが一般提供開始

Amazon DataZoneは、ディスクリプションに対する AIリコメンデーションによって、ワンクリックでデータセットの概要、コンテキスト、影響力のある列、分析ユースケースなどをワンクリックで自動生成できるようになりました。自動生成されたディスクリプションにより、検索結果が詳細なディスクリプション、考えられる使用例、キー列にも基づいて表示されるため、より充実した検索エクスペリエンスが可能になります。

データ作成者(データ アナリスト、データ エンジニア、データ サイエンティストなど) は、自動生成されたディスクリプションに基づいて、検索結果に詳細な情報が表示されるため、データ利用者は必要なデータを見つけやすくなります。アセットのディスクリプションをプログラムで生成するために使用できる API のサポートが追加されました。

2024/03/21 - Amazon DataZone が Amazon Redshift 統合の機能強化を開始

Amazon DataZoneは、Amazon Redshiftとの連携機能を強化しました。この強化により、Amazon Redshiftのテーブルやビューの公開とアクセス申請がより簡単になりました。

管理者の方は、クラスター、データベース、AWS Secrets Manager のシークレットなどのパラメーターを指定して、DefaultDataWarehouseと呼ばれるブループリントのテンプレートの上にパラメーターセットを作成できます。このパラメーターセットを利用して環境プロファイルを作成し、Amazon DataZoneプロジェクトに対して、この環境プロファイルを使って環境を作成する権限を与えることができます。これにより、データの提供者や利用者は、環境を作成する際に自分でパラメーターを入力する必要がなくなり、選択するだけで済むようになります。

Amazon OpenSearch Serverless

新機能・アップデート

2024/03/07 - Amazon OpenSearch Serverless が時系列ワークロードのサポートを最大 10 TB まで拡大

Amazon OpenSearch Serverlessは、1 つのコレクションに 1 つ以上のインデックスを含む最大 10 TB の時系列データをスキャンおよび検索できるようになりました。

Amazon OpenSearch Serverlessは、データインジェスト、検索、クエリに使用されるコンピューティング能力を OCU (OpenSearch Compute Unit) 単位で測定しますが、今回のアップデートにより、インデックス作成と検索用にそれぞれ 200 個の OCU をサポートするようになりました。これは、従来の上限である 100 から倍増 しています。検索とインデックス作成の OCU の上限を個別に設定できるため、コストをより管理しやすくなりました。CloudWatch メトリクスを使用して OCU の使用状況をリアルタイムでモニタリングすることで、ワークロードのリソース消費をより的確に把握できます。

新機能・アップデート

2024/03/18 - Amazon Managed Service for Apache Flink が Apache Flink のインプレースバージョンアップグレードを追加

Amazon Managed Service for Apache Flink のインプレースバージョンアップグレードが追加されました。今回のアップデートによって、AWS CLI、SDK、CloudFormation、またはマネジメントコンソールを使用して、簡単にアップグレードできます。また、スナップショット、ログ、メトリクス、タグ、Flink 設定、リソース制限の引き上げ、VPC など、Apache Flink バージョン間のアプリケーションのトレーサビリティが向上しました。

2024/03/18 - Amazon Managed Service for Apache Flink が Apache Flink 1.18 のサポートを開始

Amazon Managed Service for Apache Flink は Apache Flink 1.18 のサポートを開始しました。この新しいバージョンには、Amazon OpenSearch、Amazon DynamoDB、MongoDB などのコネクタの改善と、ウォーターマークの配置とクエリのパフォーマンスの向上が含まれています。インプレースアップグレードにより、Apache Flink 1.18 ランタイムへの移行が簡単になりました。

Amazon Kinesis Analytics

APIの変更点

2024/03/15 - Amazon Kinesis Analytics - 8 updated api methods

Apache Flink のマネージド サービスにおける Flink 1.18 のサポート。

Amazon QuickSight

APIの変更点

2024/03/28 - Amazon QuickSight - 2 updated api methods

Amazon QuickSightのウェブサイトにアクセスするための VPC エンドポイント制限の設定のサポートを追加します。

最後に

今月は、Amazon RedshiftのZero-ETL統合がデータフィルタリングをサポートしました。この機能は個人的にリクエストしていた機能でもあり、直感的に「含める」「除外する」のワイルドカード指定でフィルタできるのも嬉しい限りです。 また、re:Invent2023でアナウンスのあったAmazon DataZone のディスクリプションに対する AIリコメンデーションなどがサポートされました。メタデータ管理は、データ管理部門だけでなく、データの所有者や利用者を含む組織全体の協力が必要ですが、メタデータ管理に対する意識の低さなどの課題がありました。AIによるメタデータの充実によって、データ利活用が促進されことが期待されます。