クラスメソッド データアナリティクス通信(AWSデータ分析編) – 2023年10月号

2023.10.02

データアナリティクス事業本部 コンサルティングチームの石川です。コンサルティングチームメンバーを中心に、日々AWSのアナリティクス関連サービスのアップデートとそのブログを追っています。

Amazon Redshiftは、ロールベースのアクセス制御(RBAC)によるワークロード管理 (WLM) のサポート、AWS Lake Formation によるクロスリージョンもデータ共有に対応しました。AWS Glue の Data Qualityは、dbtのようにカスタムSQLによるデータ検証が可能になりました。Amazon QuickSightは、既存機能のブラッシュアップ、ユーザーのタグ付け機能によるコスト管理の改善、 Amazon Bedrock を利用したGenerative BI ダッシュボード オーサリング機能 (プレビュー)を発表しました。

では、新機能・アップデートを紹介します!

Amazon Redshift

新機能・アップデート

2023/09/12 - Amazon Redshift が AWS Lake Formation によるクロスリージョンデータ共有に対応

RedshiftのAWS リージョン間のライブデータの共有が既にサポートしていましたが、4/20に発表された AWS Lake Formation を使用したデータ共有の一元的なアクセスコントロール対応が、クロスリージョンデータ共有に対応しました。

2023/09/25 - Amazon Redshift がワークロード管理 (WLM) におけるロールベースのアクセス制御サポートを発表

Amazon Redshift は、ワークロード管理 (WLM) にロールベースのアクセス制御のサポートが追加されました。従来、WLMのキューへのクエリの割り当て方法は、Redshiftのグループに割り当てる「ユーザーグループ」と実行時にクエリをキューに割り当てる「クエリグループ」がありました。今回新たに「ロールベースのアクセス制御」のサポートの追加により、Amazon Redshift ユーザーがデータベース内でクエリを実行すると、そのクエリはそのユーザーロールに関連付けられたクエリキューにルーティングされるようになります。

Amazon Redshiftは、2022/04にロールベースのアクセスコントロール(RBAC)のサポートを発表しましたので、手動でWLMのクエリルーティングを利用している方にとって、今回のサポートは待ちに待った機能でしょう。

Amazon Glue

新機能・アップデート

2023/09/14 - AWS Glue ストリーミングが Kinesis Data Streams の拡張ファンアウト機能のサポートを開始

AWS Glue ストリーミング ETL が Kinesis イベントソースとして、Amazon Kinesis Data Streams (KDS) 拡張ファンアウト機能をサポートするようになりました。Kinesis Data Streams API を使用して強化されたファンアウトでコンシューマーを登録し、ストリームコンシューマーはシャードあたりの読み取りスループット2 MB/秒になります。

2023/09/20 - AWS Glue インタラクティブセッションが新しいカーネルをリリースし、IAM 条件付きをサポート

AWS Glue インタラクティブセッションで、assume_role、tags、session_type、matplot という 4 つの新しいノートブックカーネルマジックがサポートされるようになりました。さらに、Glue インタラクティブセッションで IAM 条件をサポートするようになりました。

  • 新しいノートブックカーネルマジック
    • session_type: Spark、Ray、Streaming のいずれかを選択してセッションタイプを簡単に変更するのに役立つ
    • assume_role: セッションを開始する際にさまざまなロールを使用できる
    • tags: AWS タグを使用してセッションの制御や監視を向上できるようにする
    • matplot: matplotlib ライブラリを使用した可視化をサポートする

2023/09/20 - AWS Glue Data Quality が CustomSQL ルールタイプで不合格となったレコードを特定できるように

AWS Glue Data Quality は、CustomSQL ルールタイプを持つレコードを識別できるように、SQL を利用して複雑なビジネスルールを作成し、品質の問題を特定できるようになりました。CustomSQL ルールタイプにより、ルールの失敗の原因となっている特定のレコードを特定し、それらのレコードに分離のフラグを付けられるようになりました。

2023/09/26 - AWS Glue Studio がカスタムアイコンをサポートするようになりました

AWS Glue は、カスタムビジュアル変換用のカスタムアイコンをサポートするようになりました。32x32px の myTransform.svg ファイル(myTransformは、カスタムビジュアル変換の関数名)を配置するだけです。

APIの変更点

2023/09/13 - Amazon Kinesis Firehose - 3 updated api methods

Amazon OpenSearch の宛先に DocumentIdOptions が追加されました。

Amazon QuickSight

新機能・アップデート

2023/09/14 - Amazon QuickSight がテキストボックスビジュアルのピクセルベースのフォントサイズとテキストハイライトを開始

Amazon QuickSight では、「テキストボックス」にピクセルベースのフォント サイズ設定が導入され、小から特大までの固定フォントサイズとは異なります。この機能強化により、作成者は比類のない精度で数値またはピクセル値 (「14px」または「32px」) に基づいてフォントサイズを微調整できるようになり、柔軟性が向上します。これに加えて、Insights ビジュアルの機能と同様のテキストハイライト機能も追加します。

Amazon QuickSight のビジュアルで「テキストボックス」というビジュアルを使えますが、少し他のビジュアルとは異色なもので、分析結果を可視化するためのものではなく、分析やダッシュボードを補足するためのものとして使われます。

2023/09/19 - Amazon QuickSight が KPI ビジュアルに新しいレイアウトとスパークラインを追加

Amazon QuickSight は、テンプレート化された KPI レイアウト、スパークラインのサポートが追加されされました。利用者は、プログレスバーに加えて、折れ線グラフや面グラフを含むスパークラインを組み込むことで、時間の経過に伴う KPI の傾向についての洞察を得ることができます。さらに、条件付き書式設定ルールが特定のフィールドに関連付けられるようになり、どちらが主値として指定されているかに関係なく、実際の値と比較値の両方に個別に書式設定ルールを適用できる機能が拡張されました。

2023/09/25 - Amazon QuickSight がテーブルの列の freeze と unfreeze をサポートするようになりました

Amazon QuickSight は、テーブル内の列を固定する機能をサポートするようになりました。

2023/09/26 - QuickSight がコスト配分のためのユーザーのタグ付けをサポートするようになりました

Amazon QuickSight と AWS Billing は、 TagResource API と RegisterUser API を使用したユーザーのタグ付けをサポートするようになり、管理者はユーザーにタグを付け、AWS コスト配分タグを使用して、チーム、部門、またはアプリケーションごとにユーザーベースのコストを分類して割り当てることができるようになりました。

2023/09/26 - Amazon QuickSight がピボットテーブルのコンテキスト行の小計を開始

Amazon QuickSight では、ピボット テーブルのコンテキスト行に小計を追加する機能が導入されました。作成者はグループ名を追加することで小計ラベルをカスタマイズできるようになり、より明確な関連付けと理解が可能になります。

2023/09/28 - Amazon QuickSight の Generative BI ダッシュボード オーサリング機能 (プレビュー)

Amazon QuickSight の顧客は、3 つの新しい生成ビジネス インテリジェンス (BI) 機能をプレビューで利用できるようになりました。

  • 見たいものを自然言語で指定してビジュアライゼーションを構築できるようになりました
    • 「2023 年の都市別の注文数を地図として表示」すると、2023 年でフィルターされた「注文」数で自動的に構成された地理地図の視覚化が瞬時に表示されます
  • 予想される条件を指定することで、複雑な計算を数秒で構築できます
    • 高度な計算構文を検索したり実験したりすることなく、自然言語で結果を得ることができます。
  • 自然言語プロンプトを使用してダッシュボード上のビジュアライゼーションを洗練および微調整できるため、従来 BI ツールに関連付けられていた何時間もの退屈なポイント アンド クリック操作が不要になります

まだ、パブリックプレビューですが実際に試したのが、こちらのブログになります。

APIの変更点

2023/09/11 - Amazon QuickSight - 9 updated api methods

このリリースでは、QuickSight KPI ビジュアルの新しいアップデート、つまりスパークライン、新しいテンプレート化されたレイアウト、条件付き書式設定ルールの新しいターゲットのサポートが開始されます。

2023/09/25 - Amazon QuickSight - 3 updated methods

作成時にユーザーをタグ付けする機能が追加されました。

Amazon EMR

新機能・アップデート

2023/09/13 - Amazon EMR on EKS が Amazon Linux 2023 のサポートを開始

Amazon EMR on EKS が Amazon Linux 2023 (AL2023) のサポートを開始しました。 今後は、AL2023 をオペレーティングシステム、Java 17 を Java ランタイムとして使用して、Amazon EMR on EKS で Spark ワークロードを実行できます。これにより、アプリケーションを開発および実行するための安全で安定した高性能環境が提供され、カーネル、ツールチェーン、glibc、openssl、その他のシステムライブラリやユーティリティなどの最新の拡張機能にアクセスできるようになります。

2023/09/15 - EKS の Amazon EMR が Managed Apache Flink をサポートするようになりました (パブリック プレビュー)

EKS 上の Amazon EMR がマネージド Apache Flink をサポートし、パブリックプレビューで利用可能になりました。すでに EMR を使用しているお客様は、同じ Amazon EKS クラスター上で他のタイプのアプリケーションとともに Apache Flink アプリケーションを実行できるようになり、リソース使用率の向上とインフラストラクチャ管理を簡素化します。すでに Amazon EKS でビッグデータフレームワークを実行しているお客様は、Amazon EMR でプロビジョニングと管理を自動化できるようになりました。

2023/09/26 - Amazon EMR Serverlessでは、アプリケーション全体のデフォルトのジョブ設定が導入されています

Amazon EMR Serverless は、アプリケーション レベルでデフォルト構成を設定できるようになり、同じアプリケーションで送信されるすべての Spark および Hive ジョブの一貫した設定を維持できるようになりました。

この新機能により、アプリケーション内のすべてのジョブのデフォルト設定を定義して、ジョブの動作を標準化することができます。これらの設定 (メモリ、エグゼキューター/ドライバーコア、ログを保存するための S3 の場所、AWS Secrets Manager からのシークレットの取得など) は、アプリケーションの下で作成されたすべてのジョブに自動的に適用されますが、特定のジョブ実行用に構成をカスタマイズする柔軟性も提供されます。たとえば、アプリケーション構成で外部 Hive メタストア データベースの資格情報をシークレットとともに指定すると、これらのデフォルト構成は、そのアプリケーションで実行されるすべてのジョブに継承されます。この一元化されたアプローチにより、構成の予測が容易になり、ジョブの再現性が向上します。

APIの変更点

2023/09/11 - EMR Serverless - 3 updated methods

このリリースでは、アプリケーション全体のデフォルトのジョブ構成のサポートが追加されています。

Amazon Kinesis Firehose

APIの変更点

2023/09/27 - Amazon Kinesis Firehose - 4 updated methods

機能 : 新しいデータ取り込みソースのサポートを Kinesis Firehose - AWS Managed Services Kafka に追加します。

Amazon OpenSearch

新機能・アップデート

2023/09/13 - Amazon OpenSearch Serverless の自動スケーリング機能を強化して高いクエリレートに対応

Amazon OpenSearch Serverless の自動スケーリング機能が強化され、1 分あたり何万ものクエリトランザクションを効率的に処理できるようになりました。この新しい機能が実装された OpenSearch Serverless を利用することで、検索やクエリのトラフィックの予期せぬ急増に対処できるようになります。

2023/09/27 - Amazon OpenSearch Service では、Auto-Tune アクションの可視性が向上しました

Amazon OpenSearch Service は、新しいAuto-Tune メトリクスと改善されたAuto-Tune イベントを提供するようになりました。これにより、Auto-Tune によるクラスターのパフォーマンスの最適化をより適切に把握できるようになります。

Amazon MSK

新機能・アップデート

2023/09/27 - Amazon MSK が Apache Kafka バージョン 3.5.1 のサポートを追加

Amazon Managed Streaming for Apache Kafka (Amazon MSK) は、新規および既存のクラスターに対して Apache Kafka バージョン 3.5.1 をサポートするようになりました。Apache Kafka 3.5.1 には、いくつかのバグ修正とパフォーマンスを向上させる新機能が含まれています。主な機能には、コンシューマ向けの新しいラック対応パーティション割り当ての導入が含まれます。Amazon MSK は、このリリースでもクォーラム管理に Zookeeper を引き続き使用および管理します。

2023/09/27 - Amazon MSK が、Kinesis Data Firehose を使用した Amazon S3 へのフルマネージド型のデータ配信をサポートするようになりました

Amazon Kinesis Data Firehose は Amazon MSK と統合され、Amazon MSK Apache Kafka クラスターから Amazon S3 に保存されているデータレイクへのストリーミング データの処理と配信を簡素化するフルマネージド ソリューションを提供します。Amazon MSK の顧客は、数回クリックするだけで、目的の Apache Kafka クラスターから Amazon S3 バケットにデータを継続的にロードできるため、独自のコネクタ アプリケーションを開発または実行する必要がなくなります。

AWS Lake Formation

新機能・アップデート

2023/09/26 - AWS Lake Formation が AWS Glue データカタログのハイブリッドアクセスモードを開始

AWS Lake Formation は、AWS Glue データ カタログのハイブリッド アクセス モードの一般提供を開始しました。ハイブリッド アクセス モードを使用すると、他の既存のユーザーやワークロードを中断することなく、特定のユーザー セットに対して Lake Formation を選択して有効にすることができるようになります。

ハイブリッド アクセス モードを使用するには、ハイブリッド アクセス モード フラグを使用して、データセットの Amazon S3 の場所を Lake Formation に登録します。Lake Formation を有効にする特定のユーザーおよびコンシューマ アカウントに対して、まず適切な Lake Formation 権限を付与し、次にそれらのユーザーを Lake Formation に明示的にオプトインします。オプトインしたユーザーに限り、そのテーブルへのアクセスは、AWS IAM/S3 ポリシーを通じて同じテーブルに直接アクセスする他のユーザーやワークロードを中断することなく、Lake Formation によって管理されます。

APIの変更点

2023/09/11 - AWS Lake Formation - 3 new 6 updated methods

このリリースでは、3 つの新しい API サポート"CreateLakeFormationOptIn"、

"DeleteLakeFormationOptIn" 、"ListLakeFormationOptIns"が追加され、対応するドキュメントも更新されます。

Amazon AppFlow

新機能・アップデート

2023/09/01 - Amazon AppFlow は、SAP アプリケーションからのデータ転送で、同時処理のサポートを開始しました

Amazon AppFlow では、SAP アプリケーションから AWS サービスへのデータ転送で、同時処理と構成可能なページサイズの設定のサポートを開始しました。

最後に

Amazon Redshiftは、[2022/04にロールベースのアクセスコントロール (RBAC) のサポート](Amazon Redshift がロールベースのアクセスコントロール (RBAC) のサポートを発表)しましたので、手動でWLMのクエリルーティングを利用している方にとって、今回のサポートは待ちに待った機能でしょう。 今後、Redshiftの権限管理は、ロールベースのアクセスコントロール (RBAC) 一択になりそうです。

2023 年の AWS Summit New York で発表されたQuickSightの新しい Generative BI 機能は、Amazon QuickSight Q の生成人工知能 (AI) における初期のイノベーションがベースになっています。2020 年以来、SQL クエリを作成したり、BI ツールを学習することなく、QuickSight Q を使用して、自然言語を使用してデータの洞察を得ることができるようになりました。QuickSight の Generative BI は Amazon Bedrock を利用しており、さまざまなタスクに適した幅広い大規模言語モデル (LLM) を提供すると同時に、データが AWS 環境内に安全に保持されるようになります。今年のre:Invent2023も楽しみです。(ちょっと早すぎか?)

AWS内で使用可能な生成AIサービス、Amazon Bedrockのブログもご覧ください。