クラスメソッド データアナリティクス通信(AWSデータ分析編) – 2023年5月号

2023.05.01

データアナリティクス事業本部のコンサルティングチームの石川です。コンサルティングチームメンバーを中心に、日々AWSのアナリティクス関連サービスのアップデートを追っています。

先月に引き続き、re:Invent2022で発表された新機能やサービスが利用可能になりました。

  • Amazon Redshift
    • MERGEステートメント
    • Lake Formationとのデータ共有の集中型アクセス制御
    • Dynamic Data Masking
  • AWS Glue
    • Visual ETL が新しいネイティブ Amazon Redshift 機能をサポート

その他にも、様々なアップデートがありますので、是非チェックしてください。

Amazon Redshift

新機能・アップデート

2023/04/13 Amazon Redshiftの文字列クエリのパフォーマンスを最大63倍向上

Amazon Redshiftは、LZOやZSTDなどの代替圧縮エンコーディングと比較して、文字列ベースのデータ処理を5倍から63倍高速化する性能強化を発表しました。軽量でCPU効率の高い辞書エンコードされた文字列カラムに対するベクトル化スキャンにより、データベースエンジンが圧縮データ上で直接操作できるようにすることでこれを実現しました。

これらの技術は、低いカーディナリティの文字列カラム(CHARまたはVARCHAR)上で最適化されます。カーディナリティの低い文字列カラムは、最大数百の一意の文字列値を持つカラムです。自動テーブル最適化 (ATO) を有効にすることで、この新しい文字列の機能強化を自動的に活用できます。

2023/04/20 Amazon RedshiftがMERGE SQLコマンドの一般提供を発表

Amazon Redshiftは、シンプルなSQLコマンドでソースデータの変更をテーブルに 適用できるMERGEコマンドのサポートを発表しました。MERGEコマンドは、一連のDML(Data Manipulation Language)ステートメントを1つのステートメントに結合することができます。

複数のステートメントを使用してデータを更新または挿入する場合、異なる操作の間に不整合が発生するリスクがあります。MERGE操作は、すべての操作が単一のトランザクションで一緒に実行されることを保証することによって、このリスクを軽減します。

下記のブログにてMERGEを紹介しています。

2023/04/20 Amazon Redshift が AWS Lake Formation とのデータ共有の集中型アクセス制御を発表

Amazon Redshiftのデータ共有では、データウェアハウス間でライブデータを共有することができます。AWS Lake Formationを使用して組織全体で共有されるデータの権限を一元管理することで、データ共有のガバナンスの簡略化をサポートしました。AWS Lake Formationによる新しいデータ共有では、Lake Formation APIとAWS Consoleを使用して、データウェアハウス内のテーブルとビューに対する権限付与、ビューアクセスコントロール、監査権限を管理できます。

Lake Formationで管理されたデータ共有では、セキュリティ管理者がLake Formationを使用して、Redshiftのデータ共有で共有されるテーブルやビューに対するテーブルレベル、カラムレベル、行レベルのアクセスといった細かな権限を管理できるため、データのセキュリティを向上させることができます。

2023/04/20 Amazon RedshiftがDynamic Data Maskingの一般提供を発表

Amazon Redshiftは、ロールベースのアクセス制御、行レベルのセキュリティ、および列レベルのセキュリティを既にサポートしており、組織がRedshiftデータにきめ細かいセキュリティを適用できるようにしています。データウェアハウス内の機密データを保護するプロセスを簡素化できるDynamic Data Masking (DDM)をサポートすることで、これらのセキュリティ機能を拡張するようになりました。Dynamic Data Masking を使用すると、クエリ時にRedshiftが機密データをユーザーに返す方法を決定するSQLベースのマスキングポリシーを通じて、データへのアクセスを制御できます。

セキュリティ管理者はマスキングポリシーを作成して、一貫性があり、フォーマットが維持され、元に戻せないマスキングデータ値を定義できます。テーブル内の特定の列またはリスト列にマスキングを適用できます。また、マスクされたデータの表示方法を柔軟に選択できます。たとえば、データに関するすべての情報を完全に非表示にしたり、部分的な実数値をワイルドカード文字に置き換えたり、SQL式、Python、または、Lambdaユーザー定義関数を使用してデータをマスクする独自の方法を定義したりできます。さらに、他の列に基づいて条件付きマスキングを適用できます。これにより、他の列の値に基づいてテーブルの列データが選択的に保護されます。ポリシーをテーブルにアタッチすると、マスキング式をその列の1つ以上に適用できます。

Amazon Athena

新機能・アップデート

2023/04/04 Amazon Athenaが外部データソースのビューサポートを追加

Amazon Athenaは、SQLを用いて、S3 データレイクに保存されているデータに加えて、約30の一般的な AWS およびサードパーティのデータストアをクエリできます。対話型分析やBIレポートなどのユースケースのために、リレーショナルデータベース、ストリーミングソース、クラウドオブジェクトストアを含むこれらのデータソースのビューを作成およびクエリできるようになりました。

2023/04/28 Amazon Athena のProvisioned Capacityの発表

Amazon AthenaのProvisioned Capacityを発表しました。これは、完全に管理されたコンピューティングキャパシティでSQLクエリを実行できる新機能で、固定料金で長期契約は不要です。Provisioned Capacityを使用すると、ミッションクリティカルなクエリに専用のコンピューティングを割り当て、クエリの同時実行数やコストなどのワークロードのパフォーマンス特性を制御できます。いつでも容量を追加でき、指定した容量の量と、アカウントでアクティブになっている時間に対してのみ料金を支払うことができます。

AWS Glue

新機能・アップデート

2023/04/10 AWS Glue Visual ETLが新しいネイティブAmazon Redshift機能をサポート

AWS Glue Studioは、Amazon Redshiftの新しいネイティブコネクタ機能をサポートしました。Glue StudioでAmazon Redshiftのテーブルを直接参照し、ネイティブRedshift SQLを追加し、Amazon Redshiftへの書き込み中にdrop、truncate、upsert、create、mergeなどの一般的な操作を実行できます。AWS Glue Studioは、ETL開発者がAWS GlueのETLジョブを迅速に作成、実行、監視できるように、Visual ETL(extract-transform-and-load)インターフェイスを提供します。この新機能により、ETL開発者はAWS Glueを使用してAmazon Redshiftにデータをより効果的に読み書きすることができます。

2023/04/17 AWS Glueは、Glueリソースの使用状況を監視する新しい機能を開始

お客様が Cloudwatchで特定のGlueリソースの使用率を監視し、適切なCloudWatch Alarmを設定できるようにするGlueの新機能を発表されました。

この新機能により、お客様は、Glue ワークフロー、トリガー、ジョブ、同時実行ジョブ、ブループリント、インタラクティブセッションの数など、アカウントレベルの制限を監視できます。詳細については、AWS Glue のドキュメントを参照してください。

APIの変更点

2023/04/03 - AWS Glue - 10 updated api methods

Add support for database-level federation

Amazon QuickSight

新機能・アップデート

2023/04/10 Amazon QuickSightがOR条件付きの行レベルセキュリティタグのサポートを開始

Amazon QuickSightは、マルチテナントアクセスパターンを簡素化するためにAND条件とOR条件を組み合わせることができるRow Level Security (RLS) タグ内のネストされた条件をサポートするようになりました。タグベースのルールでRLSを使用して、匿名ユーザーのダッシュボードを埋め込むときにデータセットへのアクセスを制限できます。

2023/04/27 Amazon QuickSightがデータ取り込みAPIの2つのスイートを開始

Amazon QuickSight は、取り込みスケジュール APIと増分更新構成APIを含む、データ取り込みAPIの2つのスイートを起動します。APIを有効にする前に、QuickSightユーザーは、コンソールUIで取り込み更新スケジュールとルックバックウィンドウを手動で設定する必要があります。新しいAPIスイートにより、ユーザーは更新スケジュールと増分更新構成をプログラムで定義できるため、開発者はシームレスに自動化および統合できます。APIは、他のBIツールから QuickSight への移行も大幅にスピードアップします。詳細については、こちらをご覧ください。

APIの変更点

2023/04/07 Amazon QuickSight - 8 new 5 updated methods

このリリースには2つの変更点があります。CreateDataSetとUpdateDataSetのタグベースのRLSルールにOR条件を追加しました。ユーザーがSPICEデータセットの取り込みをプログラムで構成できるように、RefreshSchedule操作とIncremental RefreshProperties操作を追加します。

Amazon MWAA

新機能・アップデート

2023/04/03 Amazon MWAAがシェル起動スクリプトのサポートを開始

Amazon Managed Workflows for Apache Airflow (MWAA) は、環境バージョン2.x以降のシェル起動スクリプトをサポートするようになりました。

Amazon MWAAは、Apache Airflowのマネージドサービスであり、現在と同じ使い慣れたApache Airflowプラットフォームを使用してワークフローを調整し、基盤となるインフラストラクチャを管理するという運用上の負担を負うことなく、スケーラビリティ、可用性、およびセキュリティを向上させることができます。Amazon MWAAは、起動時に顧客指定のシェル起動スクリプトを起動することでApache Airflow環境をカスタマイズする機能を追加し、既存の統合、インフラストラクチャ、およびコンプライアンスのニーズによりうまく機能するようになりました。シェル起動スクリプトを使用して、カスタムランタイムのインストール、環境変数の設定、構成ファイルの更新を行うことができます。

2023/04/11 Amazon MWAAがApache Airflow バージョン2.5をサポートしました

Amazon Managed Workflows for Apache Airflow(MWAA)上でApache Airflowバージョン2.5環境を作成できるようになりました。

Apache Airflow version 2.5 on Amazon MWAAの改善点は、Amazon MWAAが提供するスケーラビリティ、可用性、セキュリティ、管理の容易さに加え、DAG実行やタスクインスタンスのアノテーション、タスクログ表示の自動更新、データセットユーザーインターフェイスの改善です。Pythonバージョン3.10を含み、最近リリースされたAmazon Provider Packageバージョン7.1.0がプリインストールされており、Amazon SageMaker Pipelines、Amazon SageMaker Model Registry、Amazon EMR Notebookなどの新しいAWS統合へのアクセスが可能です。

APIの変更点

2023/04/03 - AmazonMWAA - 3 updated api methods

このAmazon MWAAリリースでは、スタートアップ時にシェルスクリプトを起動してApache Airflow環境をカスタマイズする機能が追加されました。このシェルスクリプトは、環境の Amazon S3 バケットでホストされます。Amazon MWAAは、要件をインストールし、Apache Airflowプロセスを初期化する前に、このスクリプトを実行します。

AWS Lake Formation

新機能・アップデート

2023/04/19 AWS Lake FormationとGlue Data CatalogがApache Hive Metastoreリソースを管理するようになりました

AWS Lake Formationと Glue Data Catalog は、自己管理型の Apache Hive Metastore (HMS) をデータカタログとして使用する顧客向けに、データのカタログ化、データ共有、きめ細かいアクセス制御のサポートを拡張するようになりました。

APIの変更点

2023/04/03 - AWS Lake Formation - 4 updated api methods

Add support for database-level federation

Amazon AppFlow

新機能・アップデート

2023/04/11 Amazon AppFlowが6つの新しいコネクタを発表

Amazon AppFlowは、Software-as-a-Service(SaaS)アプリケーション向けに6つの新しいデータコネクタをリリースしたことを発表しました。新しいコネクタは、Aftership、BambooHR、Freshsales、Google Sheets、Kustomer、Pipedriveからデータを転送することができ、CRM、人事、出荷追跡アプリケーションへの接続を提供します。

APIの変更点

2023/04/17 - Amazon Appflow - 7 updated api methods

AppFlow APIにClient Tokenパラメータが追加されました: コネクタプロファイルの作成/更新、フローの作成/更新、フローの開始、コネクタの登録、コネクタ登録の更新です。Client Tokenパラメータは、これらのAPIに対して、冪等性のある操作を可能にします。

Amazon EMR

APIの変更点

2023/04/17 - EMR Serverless - 1 updated api methods

GetJobRun APIが更新され、ジョブの課金リソース利用率を含めるようになりました。この利用率は、AWSがジョブ実行に対して課金したvCPU、メモリ、ストレージの総計を示します。請求されたリソースには、ワーカーの1分間の最小使用量と、ワーカーあたり20GBを超える追加ストレージが含まれています。

2023/04/27 - Amazon EMR Containers - 1 new api methods

マネージドエンドポイントに接続するための認証トークンを生成できる新しいAPI GetManagedEndpointSessionCredentialsを追加し、EKS上のEMR用セルフホストジュピターノートブックなどの機能を実現します。

Amazon OpenSearch Service

新機能・アップデート

2023/04/27 Amazon OpenSearch ServiceがAmazon OpenSearch Ingestionを発表

OpenSearch管理のクラスターまたはサーバーレス コレクションでインデックスを作成する前に、ペタバイト規模のデータを取り込んで処理できる、新しい完全マネージド型のデータ取り込み層です。OpenSearch Ingestion は、OpenSearchでデータをインデックス化する前に、データをフィルター処理、変換、編集、およびルーティングするコードなしの機能を提供します。OpenSearch Ingestionは、最も要求が厳しく予測不可能なワークロードに対しても、ベースとなるリソースを自動的にプロビジョニングおよびスケーリングします。

Amazon MSK

新機能・アップデート

#### 2023/04/28 Amazon MSKがマルチVPCプライベート接続とクロスアカウントアクセスを提供するようになりました

Amazon Managed Streaming for Apache Kafka (MSK) は、任意のVPCまたはAWSアカウントでホストされている Apache Kafkaクライアントから Amazon MSKクラスターへの接続とアクセスを簡素化するマルチVPCプライベート接続を提供するようになりました。

最後に

先月に引き続き、re:Invent2022で発表された新機能やサービスが続々と利用可能になりました。

その他に、Amazon Athenaは、Provisioned Capacityという、キャパシティ予約したDPU数と時間に応じた課金によるサービス開始しました。これまで、Amazon Athenaは、キャパシティ調整がベストエフォートでした。クエリーに対して任意のキャパシティを割り当てることができず、コストをかけてでもレスポンスを改善はしたいお客様にとって、Provisioned Capacityの提供は待望の機能です。

では、また来月お会いしましょう!