クラスメソッド データアナリティクス通信(AWSデータ分析編) – 2022年12月号

2022.11.29

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

データアナリティクス事業本部のコンサルティングチームの石川です。コンサルティングチームメンバーを中心に、日々AWSのアナリティクス関連サービスのアップデートを追っています。今回は、re:Inventが始まる11/27までのアップデートを紹介します。今年のre:Invent2022 アナリティクス関連のセッションについて、事前にチェックすることをおすすめします!

Amazon Redshift

新機能・アップデート

2022/11/15 Concurrency scaling for write workloads is now generally available for Amazon Redshift

RedshiftのConcurrency Scalingは、すごく簡単に解説するとクラスタがオートスケールする機能で、従来は書き込み処理(COPY, INSERT, DELETE, UPEATE )はPreviewでしたが、GAになりました。

2022/11/17 Amazon Redshift announces support of the CONNECT BY SQL construct

CONNECT BY SQL コンストラクトをサポートされることで、階層データを処理が再帰 CTE クエリの複雑さを軽減しています。CONNECT BY を使用するクエリは、再帰 CTE と同じパフォーマンスを発揮します。

Amazon Athena

新機能・アップデート

2022/11/08 Amazon Athena がクエリを高速化するための Query Result Reuse を発表

新しいキャッシング機能である Query Result Reuse を使用して、Amazon Athena で反復クエリの処理を高速化できるようになりました。Query Result Reuse では、反復クエリが送信されたときに、以前に保存されたクエリ結果を返します。Athena では反復クエリが自動的に識別されるため、既存のクエリを変更したり、アプリケーションコードを変更したりする必要はありません。デフォルトでは、以前のクエリの結果を新しいクエリで 60 分間再利用できますが、ユースケースとデータレイクの更新頻度に合わせて最適な有効期限を選択できます。Query Result Reuse には Athena エンジンバージョン 3 が必要です。

弊社のブログでQuery Result Reuse を実際に試しています。

2022/11/14 Amazon Athena expands support for AWS Lake Formation fine-grained access control

Amazon Athenaは、これまでサポートされていなかったApache Iceberg、Apache Hudi、Apache Hive をサポートすることで、すべてのテーブルとファイル形式で、AWS Lake Formationのきめ細かいアクセス制御ポリシーを適用できるようになりました。

2022/11/18 Amazon Athena enhances Apache Iceberg table operations and file format support

Apache Iceberg テーブルに保存されたデータの保存、変換、およびメンテナンスを簡素化する SQL コマンドとファイル形式を追加しました。これらの新機能では、Iceberg データのライフサイクル管理を合理化する CREATE TABLE AS SELECT (CTAS)、MERGE、および VACUUM コマンドが追加されました。CTAS はテーブルの作成を迅速かつ効率的に行い、MERGE はテーブルを 1 ステップで同期して、データの準備と更新タスクを簡素化します。 また、AVRO と ORC のサポートも追加されたので、より幅広いファイル形式で Iceberg テーブルを作成できます。最後に、ビューを使用して複雑な結合、集計、およびデータ型を非表示にすることで、Iceberg が管理するデータへのアクセスを簡素化できるようになりました。

2022/11/18 Amazon Athena releases data source connector for IBM Db2

IBM Db2 データ ソース コネクタをリリースしました。

APIの変更点

2022/11/07 Amazon Athena - 3 updated methods

新機能 Query Result Reuseのサポート。

AWS Glue

新機能・アップデート

2022/11/07 AWS Glue の機密データ検出機能で日本および英国エンティティの機密データの識別および処理が可能に

AWS Glue では、データに含まれる機密データを処理するための Sensitive data detection API という機能があります。これまで日本語圏のデータはサポート範囲が限定的だったのですが、本日のアップデートでいくつか日本および英国のデータタイプがサポートされるようになりました。

この機能を利用して、英国および日本の銀行口座番号、運転免許証番号、パスポート番号といった機密データエンティティを検出できます。

弊社のブログでは、日本のダミーデータを用意して検証を行ってみました。

2022/11/17 Amazon AppFlow now supports AWS Glue Data Catalog integration and provides enhanced data preparation

新機能では、数回クリックするだけで、AWS Glue データカタログへの 登録とデータプリパレーションを自動化しました。エクスポートしたデータをS3 のパーティション分割されたフォルダにデータを整理できるようになり、指定したサイズに最適化されたファイルへのレコードの集約も自動化します。

弊社のブログで登録とデータプリパレーションを実際に試しています。

2022/11/21 AWS Glue Crawlers Now Support Snowflake

AWS Glue クローラーが Snowflake をサポートするようになり、 AWS Glue データカタログ内の Snowflake テーブル、外部テーブル、ビュー、マテリアライズド ビューの更新や削除などの情報を検査してカタログ化します。

APIの変更点

2022/11/18 5 updated api methods

AWS Glue Crawler - JDBCベースのクローラー用に、データベースレベルのデータ型を持つテーブルとカラムレベルのコメントをサポートするようにしました。

AWS Lake Formation

新機能・アップデート

2022/11/18 AWS Lake Formation では、IAM プリンシパルとの直接的なクロスアカウント共有と、LF-TBAC を使用した AWS Organizations の単位との共有を導入

クロスアカウント共有バージョン 3 が一般公開されました。バージョン 3 には、Lake Formation を使用してクロスアカウント権限を付与する際の使いやすさを向上させる機能として、データベースやテーブルなどの AWS Glue Data Catalog リソースを、あるアカウントから別のアカウントの IAM プリンシパル (IAM ロールや IAM ユーザー) に直接共有できるようになりました。

バージョン 3 では、LF タグ ベースのクロスアカウント共有を使用しながら、Data Catalog リソース ポリシーを手動で記述する追加の手順が不要になります。最後に、 LF タグ ベースの共有を使用して、Data Catalog リソースをAWS Organizations/組織単位と共有できます。

APIの変更点

2022/11/14 2 updated api methods

本リリースでは、DataLakeSettingsに新しいパラメータ "Parameters "を追加しました。

Amazon QuickSight

新機能・アップデート

2022/11/09 Amazon QuickSight は Amazon CloudWatch にメトリクスを送信して SPICE 消費量をモニタリングできるように

Amazon CloudWatchのメトリクスとしてSPICE 消費量をモニタリングできるようになりました。QuickSight のデベロッパーと管理者は、このメトリクスを使用して SPICE の消費量を監視およびモニタリングし、QuickSight アカウントが SPICE の容量制限に達してデータセットのインジェストに失敗してしまわないように事前にモニタリングできます。

弊社のブログでSPICE 消費量をモニタリングを実際に試しています。

2022/11/18 Amazon QuickSight、折れ線グラフの線とマーカーをカスタマイズできるオプションを追加

折れ線グラフの線とマーカーの新しいカスタマイズ用オプションを使ってグラフのスタイルを設定できる新機能が登場しました。この新しいスタイル設定オプションを使用すれば、折れ線グラフの視認性を高め、グラフ閲覧者を強調したい線に注目させることができます。

2022/11/18 Amazon QuickSight launches Small Multiples for line, bar and pie charts

Amazon QuickSightは、比較分析に関する強力なデータ視覚化機能である Small Multiples の可用性をサポートしました。Small Multiples は、ベース ビジュアルの複数のバージョンを作成し、横に並べて表示します。そのデータは、ディメンションによってこれらのバージョン間で分割されます。これにより、サイロ内のデータを見るのではなく、ビジネスの全体像を簡単に把握できます。

弊社のブログで Small Multiples オプションを実際に試しています。

2022/11/18 Amazon QuickSight launches Textbox

分析への Textbox オブジェクトの追加をサポートするようになりました。

弊社のブログで テキストボックスを実際に試しています。

2022/11/21 Amazon QuickSight launches admin asset management console

本格的な管理者向けのアセット管理コンソールと機能が提供されました。管理者はインタラクティブな UI を使用して、資産の所有者が誰であるかに関係なく、すべてのアカウント資産を一覧表示して検索できるようになりました。マルチテナント環境に含まれる、ユーザーまたはグループがアクセスできるすべてのアセットを一覧表示できます。誰かが組織を離れたときにある人から別の人にアセットを転送したり、他のユーザーとアセットを共有したり、アセットへのアクセスを取り消したりするなど、アセット レベルまたは一括アクションを実行できます。現在サポートされているアセットは、ダッシュボード、分析、データセット、データソース、および共有フォルダーです。アセット管理コンソールは、IAM 資格情報を介して QuickSight 管理コンソール ページにアクセスできる管理者が利用できます。

弊社のブログでアセット管理コンソールと機能を実際に試しています。

2022/11/21 Amazon QuickSight Now Supports Connectivity to Databricks

Databricks にネイティブに接続できるようにする QuickSight 用の新しいコネクタの一般提供されました。

2022/11/21 Amazon QuickSight supports NULL in parameter

パラメータの使用で NULL を完全にサポートするようになりました。以前は、パラメーターの有効な値として NULL がサポートされていなかったため、ユーザー データに NULL 値が含まれている場合に不一致が生じていました。NULL の完全な有効化により、パラメーターを使用するすべての機能が NULL 値をサポートするようになりました。

2022/11/23 Amazon QuickSight launches cluster points for Geospatial Visual

ポイントスタイルをクラスター ポイントに変更することで、マップ ビジュアル上のポイントの読みやすさを改善できるようになりました。数百のデータ ポイントが非常に接近して重なり合って見えない場合、クラスター ポイントを使用すると、読者はパターンを見つけたり、データ ポイントの数が多い場所や場所を特定したりすることが容易になります。

Amazon QuickSight では様々なビジュアルが用意されていますが、地理情報を表示するために緯度・軽度、国、都道府県、市区町村、郵便番号などを使って、ポイントあるいはエリアで領域を塗りつぶす地図ビジュアルを利用することが出来ます。

弊社のブログでアセット管理コンソールと機能を実際に試しています。

APIの変更点

2022/11/18 3 new 10 updated api methods

今回のリリースでは、以下を追加しました。

1) 資産を一元管理するアセットマネジメント

2) QuickSight Q が公開埋め込みに対応

3) 誤って削除されることを防ぐための新しいターミネーション保護フラグ

4) AthenaデータソースがカスタムIAMロールを受け入れるようになりました

5) QuickSightがDatabricksへの接続

をサポートしました。

Amazon EMR / EMR Serverless

新機能・アップデート

2022/11/04 EMR on EKS が、ジョブ実行間でパラメータを保存し共有するためのジョブテンプレートのサポートを開始

Amazon EMR on EKSのジョブテンプレートの一般提供が開始されました。ジョブテンプレートを使用すると、Spark アプリケーションのパラメータを設定するためのテンプレートを作成し、保存できます。データパイプラインで設定のオーバーライドが再利用され実施されるため、これはアプリケーション間で設定の一貫性を確保するうえで役立ちます。

2022/11/21 Run long running fault-tolerant SQL queries with Trino and Amazon EMR with checkpointing on Amazon S3 or HDFS

耐障害性のためにS3 または HDFS のチェックポイントを使用して、Trino エンジン ( Project Tardigrade ) で長時間実行される耐障害性 SQL クエリのサポートしました。

2022/11/22 Announcing AWS Graviton2 support for Amazon EMR Serverless - Get up to 35% better price-performance for your serverless Spark and Hive workload

EMR サーバーレス向けの AWS Graviton2 (ARM64 ベースのアーキテクチャ) をサポートしました。

2022/11/22 Support for reading and writing data in Amazon DynamoDB and cross account Amazon S3 access with Amazon EMR Serverless

Spark および Hive ワークフローを使用した Amazon DynamoDB でのデータの読み取りと書き込みのサポートしました。

2022/11/22 Amazon EMR on EKS adds support for configuring Spark properties within EMR Studio Jupyter Notebooks

インタラクティブな Spark ワークロードの EMR Studio Jupyter Notebook セッション内で Spark プロパティを構成するためのサポートしました。

2022/11/22 Manage Table metadata in Glue Data Catalog when running Flink workloads on Amazon EMR

Flink のストリーミングおよびバッチ SQL ワークフローから AWS Glue Data Catalog を使用できるようになりました。

2022/11/22 Amazon Kinesis Data Analytics for Apache Flink now supports Apache Flink version 1.15

Amazon Kinesis Data Analytics for Apache Flink は、Apache Flink バージョン 1.15 をサポートするようになりました。

2022/11/22 Support for reading and writing data in Amazon DynamoDB and cross account Amazon S3 access with Amazon EMR Serverless

Spark および Hive ワークフローを使用した Amazon DynamoDB でのデータの読み取りと書き込みのサポートしました。

2022/11/22 Amazon EMR on EKS adds support for configuring Spark properties within EMR Studio Jupyter Notebooks

インタラクティブな Spark ワークロードの EMR Studio Jupyter Notebook セッション内で Spark プロパティを構成するためのサポートしました。

2022/11/22 Manage Table metadata in Glue Data Catalog when running Flink workloads on Amazon EMR

Flink のストリーミングおよびバッチ SQL ワークフローから AWS Glue Data Catalog を使用できるようになりました。

APIの変更点

2022/11/17 4 updated api methods

AWS Graviton2ベースのアプリケーションをサポートするようになりました。新規アプリケーションの作成時や既存アプリケーションの更新時に、CPUアーキテクチャを選択できるようになりました。

Amazon Managed Workflows for Apache Airflow (MWAA)

新機能・アップデート

2022/11/14 Amazon Managed Workflows for Apache Airflow (MWAA) is now HIPAA eligible

Amazon Managed Workflows for Apache Airflow (MWAA) が HIPAA ( Health Insurance Portability and Accountability Act ) の対象となったことを発表しました。

Amazon OpenSearch Service

新機能・アップデート

2022/11/08 Amazon OpenSearch Service が、AWS PrivateLink を利用したクロス VPC 接続のサポートを発表

Virtual Private Cloud (VPC) 内の Amazon OpenSearch Service VPC 対応ドメインに接続するためのマネージド VPC エンドポイント (AWS PrivateLink を利用) をサポートするようになりました。

APIの変更点

2022/11/08 9 new api methods

Amazon OpenSearch Serviceは、Virtual Private Cloud(VPC)内のAmazon OpenSearch Service VPC対応ドメインに接続するためのマネージドVPCエンドポイントを提供するようになりました。この機能により、パブリックIPを使用したり、トラフィックがインターネットを通過することなく、OpenSearch Serviceドメインにプライベートでアクセスすることができます。

Amazon Kinesis Data Analytics

新機能・アップデート

2022/11/22 Amazon Kinesis Data Analytics for Apache Flink now supports Apache Flink version 1.15

Amazon Kinesis Data Analytics for Apache Flink は、Apache Flink バージョン 1.15 をサポートするようになりました。

APIの変更点

2022/11/22 6 updated methods

その他の気になるアップデート: Amazon EventBridge Scheduler

今日現在で、14本の技術ブログが公開されている、注目の機能です。

新機能・アップデート

2022/11/10 Amazon EventBridge で新しいスケジューラーの提供を開始

Amazon EventBridge Scheduler の提供が開始されました。従来のスケジュール機能が拡張されたことで、デベロッパーはスケジュールされたタスクの大規模な作成、実行、管理を簡単に行えるようになりました。

2022/11/21 Amazon EventBridge introduces new capabilities that make it simpler to build rules

ルールの構築をより簡単にする新しい機能が導入されています。Amazon EventBridge は、ルールとバスのコンソール ページからの CloudFormation テンプレートの生成をサポートするようになりました。

Amazon EventBridge APIの変更点

2022/11/08 12 new api methods

AWSは、新しいAmazon EventBridge Schedulerを紹介します。EventBridge Schedulerは、一元管理されたサービスからタスクを作成、実行、管理できるサーバーレススケジューラーです。

イベント情報

アナリティクスに関するイベント情報

クラスメソッドで開催しているアナリティクスに関するイベント情報です。

採用に関するイベント情報

クラスメソッドで開催している採用に関するイベント情報です。

データ分析相談会 /データ分析環境構築支援

クラスメソッドのアナリティクス分野の支援では、AWS、Google Cloudを中心としたクラウド上でのデータ分析基盤環境づくりにおいてトータルでサポートしています。

このようなことでお困りではないですか?

  • 企業内に点在するデータを1箇所にまとめて分析したい
  • クラウド上で分析基盤を導入したい・・・
  • データを活用したいが、具体的に何から始めたらいいかわからない

データ分析の相談会、オーダーメイドの分析基盤構築の開発もおこなっています。お客様の課題にあわせた最適な構成をご提案いたします。お気軽にご相談ください。

データ分析相談会のお申込みはこちら

最後に

2022年11月に発表された、AWSのアナリティクス関連のアップデートについて、メンバーでピックアップした情報についてご紹介しました。

今月は、re:Invent2022の開催月ということもあり、事前に大きなアップデートが多くありました。私がイチオシのアップデートは、AthenaのQuery Result Reuseというクエリキャッシュ機能とQuickSightの怒涛のアップデートでした。あと、アナリティクス関連ではありませんが、Amazon EventBridge Scheduler の登場にもたいへん驚かされました。re:Invent2022では、更に新サービスや新機能が紹介されるので楽しみです。

クラスメソッド データアナリティクス通信(AWSデータ分析編) - 2022年11月号は以上です。後は、re:Invent2022を思う存分楽しんでください!