クラスメソッド データアナリティクス通信(AWSデータ分析編) – 2023年4月号

2023.04.06

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

データアナリティクス事業本部のコンサルティングチームの石川です。コンサルティングチームメンバーを中心に、日々AWSのアナリティクス関連サービスのアップデートを追っています。

今回は、re:Invent2022 で発表された、Amazon DataZoneのパブリックプレビューの開始、Amazon Clean RoomsのGA(Generally Available)、その他にも多くのアップデートが発表されました!

Amazon DataZone (Preview)

パプリックプレビュー開始

2023/03/29 AWSがAmazon DataZone (プレビュー) を発表

Amazon Data Zoneとは、お客様が AWS、オンプレミス、およびサードパーティのソースに保存されているデータのカタログ化、発見、共有、および管理をより迅速かつ簡単にする新しいデータ管理サービスです。Amazon DataZone を使用すると AWS やオンプレミス、サードパーティのソースに保存されているデータのカタログ化、発見、共有、および管理が簡単に行えるようになります。

ユーザーガイドのGetting StartedにしたがってDatazoneカタログの公開まで操作を実際に試したのが下記のブログになります。

Amazon Clean Rooms

GA(Generally Available)

2023/03/21 AWS Clean Rooms is now generally available

Amazon Clean Roomsが、GA(Generally Available)になりました。Clean Roomsは、データ提供側(プロデューサー)が作成したコラボレーションをデータ利用者側(Consumer)へ安全にデータを提供するサービスです。コラボレーションには、データ提供するテーブルとその分析ルールを設定していますので、データに対するクエリで集約(Agregate)は許可するけど、リストは許可しないといった設定が可能です。コラボレーションに招待されたデータ利用者側(Consumer)は、招待されたコラボレーションに参加することで利用を開始します。

実際に試したブログはこちらです!

APIの変更点

2023/03/21 AWS Clean Rooms Service - 3 new 4 updated methods

Amazon Clean RoomsのGA(Generally Available)に伴い、リソース作成やタグ管理のAPIが追加されました。

Amazon Redshift

新機能・アップデート

2023/03/08 Amazon Redshift が 20 万テーブルまでサポートを拡張

Redshift Serverless とProisioned Cluster(ra3.4xlarge、ra3.16xlarge、dc2.8xlarge) が、最大テーブル数が10万テーブルから20万テーブルへ拡張しました。

2023/03/09 Amazon Redshift Serverless のデータウェアハウスの基本容量を下げる構成のお知らせ

Amazon Redshift Serverless 基本容量が最低RPU(※1)が32から8に削減されたことをお知らせします。基本容量が最低 8 RPUに引き下げられたことで、価格性能の要件に応じて、複雑さが小さいものから大きいものまで、さまざまなワークロードをより柔軟にサポートできるようになりました。

※ 1 RPUは、Redshift Processing Unitの略です。Amazon Redshift Serverlessは、データウェアハウスのコンピューティング容量をRPUという数値で指定します。そして、RPU時間で実行するワークロードの期間に対して1秒ごとに料金を支払います。

下記のブログでは、コストの比較を紹介しています。

2023/03/23 AWS は、ガイド付きの新しい Amazon Redshift 入門エクスペリエンスを発表します

Amazon Redshift Serverless は、コンピューティング(8RPU)の使用に対して 90 日間 $300までの無料トライアルを開始しました。

Amazon QuickSight

新機能・アップデート

2023/03/09 Amazon QuickSight におけるデベロッパー体験が SDK 2.0 により向上

デベロッパーが製品やアプリケーションに分析機能を統合するための JavaScript ライブラリ、QuickSight Embedding SDK version 2.0がリリースされました。このQuickSight Embedding SDK version 2.0 を導入すれば、TypeScript、ES6 (async/await) 構文、ユーティリティ機能により、アプリケーション内の分析体験を迅速に構築できます。

実際にSDK 2.0の新機能を試したブログは、こちらです。

2023/03/13 Amazon QuickSight に、ピボットテーブルの [折りたたまれた列を非表示] コントロールが追加されました

QuickSight のピボットテーブルオプションに折りたたまれた列を非表示にできる新しいオプションが追加されました。

  • +/- ボタンを非表示
  • 1 つのメトリクスを非表示
  • 折りたたまれた列を非表示

ピボットテーブルは色々な列や行が登場するので、実際に試したブログは以下になります。

APIの変更点

2023/03/09 Amazon QuickSight - 10 updated api methods

このリリースには 2 つの変更点があります。GenerateEmbedUrlForRegisteredUser API に埋め込まれたダッシュボードとコンソールの状態永続化機能を追加しました。 PivotTableOptions で非表示の折りたたまれた行のディメンションのプロパティを追加しました。

Amazon Athena

新機能・アップデート

2023/03/28 Amazon Athena adds minimum encryption to enhance query result security

Amazon Athenaのすべてのクエリ結果が、指定した暗号化レベル以上で確実に暗号化されるようになりました。

APIの変更点

2023/03/08 Amazon Athena - 2 updated api methods

GetQueryExecution APIに新しいフィールドSubstatementTypeが追加されました。

2023/03/27 - Amazon Athena - 3 updated api methods

Amazon S3に書き込まれるクエリおよび計算結果に対して、ワークグループの最小レベルの暗号化の強制を有効にすると、ワークグループユーザーはクエリを送信する際に、管理者が設定した最小レベル以上の暗号化のみを設定することができます。

AWS Glue

新機能・アップデート

2023/03/07 AWS Glue 4.0 がストリーミング ETL のサポートを開始

AWS Glue 4.0が、ストリーミング ETL をサポートするようになりました。AWS Glue ストリーミング ETL ジョブは、ストリーミングソースからのデータを継続的に取り込み、処理中のデータをクリーンアップして変換、数秒で分析できるようにします。

2023/03/08 AWS Glue が AWS Glue ジョブモニタリングで継続的なログを提供するようになりました

AWS Glue が AWS Glue Studio のジョブ実行詳細ページに連続ログ(Continuous logs)をサポートしました。ETL ジョブが実行するとログがリアルタイムで更新されるのを確認できるようになります。

2023/03/08 AWS Glue がより高速で簡単な権限設定を導入しました

AWS Glue では、AWS コンソールでガイド付き権限設定が可能になりました。管理者は新しいセットアップツールを使用して、IAM ロールとユーザーに AWS Glue とそのデータへのアクセス権、およびジョブを実行するためのデフォルトロールを付与できるようになりました。

2023/03/31 AWS Glue Studio visual ETL adds 10 new visual transforms

AWS Glue Studio は、以下の10種類の新しい新しいビジュアル変換を追加しました。

新しいビジュアル変換 機能
Split String transform 正規表現を使用して文字列をトークンの配列に分割し、分割方法を定義します。
Array To Columns transform 配列型の列の一部またはすべての要素を新しい列に抽出します。
Add Current Timestamp transform データが処理された時間で行をマークします。 これは、監査の目的や、データ パイプラインのレイテンシを追跡するのに役立ちます。
Pivot Rows to Columns transform 新しい列になる選択された列で一意の値を回転させることにより、数値列を集計します。 複数の列が選択されている場合、値が連結されて新しい列の名前が付けられます。
Unpivot Columns To Rows transform 列を新しい列の値に変換して、一意の値ごとに行を生成します。
Autobalance Processing transform ワーカー間でデータをより適切に再配布します。 これは、データのバランスが取れていない場合や、ソースからのデータでは十分な並列処理ができない場合に役立ちます。
Derived Column transform データ内の他の列、および定数とリテラルを使用できる数式または SQL 式に基づいて新しい列を定義します。
Lookup transform キーがデータ内の定義されたルックアップ列と一致する場合、定義されたカタログ テーブルから列を追加します。
Explode Array or Map Into Rows transform ネストされた構造から、操作しやすい個々の行に値を抽出します。
Custom transform カスタム変換を使用するには、テキスト入力フィールドにコードを入力します。 出力は DynamicFrames のコレクションです。

Amazon MSK

新機能・アップデート

2023/03/02 Amazon MSK が Apache Kafka バージョン 3.3.2 のサポート追加

Amazon Managed Streaming for Apache Kafka (Amazon MSK) が、新しいクラスターおよび既存のクラスター向けに Apache Kafka バージョン 3.3.2 のサポートが開始しました。

Amazon OpenSearch Service

新機能・アップデート

2023/03/13 Amazon OpenSearch Service で OpenSearch バージョン 2.5 のサポートを開始

OpenSearch と OpenSearch Dashboards バージョン 2.5 が Amazon OpenSearch Service で実行できるようになりました。OpenSearch 2.5 では、OpenSearch Service にセキュリティ分析のサポート、ポイントインタイム検索のサポート、オブザーバビリティと地理空間機能の改善など、いくつかの新機能と拡張機能が追加されています。

2023/03/14 Amazon OpenSearch Service でセキュリティ分析が導入されました

Amazon OpenSearch Service は、脅威のモニタリング、検出、警告に関する新しい機能を提供するセキュリティ分析を発表しました。これらの機能により、事業運営に支障をきたしたり、組織の機密データに脅威を与えたりする可能性のある潜在的なセキュリティ脅威を検出して調査することができます。

Amazon EMR

新機能・アップデート

2023/03/24 Amazon EMR on EKS には、マネージドエンドポイントのマネージド型ノードグループとセルフマネージド型ノードグループのサポートが追加されました

マネージドエンドポイントを介してインタラクティブな Spark ワークロードを使用する際に、マネージド型ノードグループとセルフマネージド型ノードグループの両方で EKS クラスターがサポートされました。

APIの変更点

2023/03/30 - Amazon EMR - 2 updated api methods

エラー コード、プログラムでアクセス可能なエラー データ、およびエラー メッセージを指定する ErrorDetail を含めるために、DescribeCluster および ListClusters API 応答を更新しました。 ErrorDetail は、クラスター障害の根本的な理由を提供し、EMR クラスターのトラブルシューティングを簡素化するためのアクションを推奨します。

AWS Lake Formation

APIの変更点

2023/03/08 - AWS Lake Formation - 2 new 2 updated api methods

このリリースでは、2 つの新しい API サポート GetDataCellsFiler と UpdateDataCellsFilter が追加されました。

最後に

Amazon Clean RoomsがGA(Generally Available)になり、AWSアカウント間でデータを安全に提供できるようになりました。また、期待値の高いデータカタログサービスであるAmazon DataZoneもパブリックプレビューになり、誰もがフィジビリティスタディに取り組めるようになりました。

Redshift Serverlessは、基本容量が最低 8 RPUに引き下げられたことで、価格性能の要件に応じて、複雑さが小さいものから大きいものまで、さまざまなワークロードをより柔軟にサポートできるようになり、今後のDWHの第一候補は、Redshift Serverlessになりそうです。

最後に、アナリティクスカテゴリではありませんが、Amazon Linux 2023がリリースされました。このリリースによって、今後のEC2インスタンスのみならず、DockerのベースイメージもAmazon Linux 2023への移行が予想されますので、こちらも注目です。

Amazon Linux 2023関連のブロブも多くありますのでご覧ください。

クラスメソッド データアナリティクス通信(AWSデータ分析編) - 2023年04月号は以上です。

データ分析相談会 /データ分析環境構築支援

クラスメソッドのアナリティクス分野の支援では、AWS、Google Cloudを中心としたクラウド上でのデータ分析基盤環境づくりにおいてトータルでサポートしています。

このようなことでお困りではないですか?

  • 企業内に点在するデータを1箇所にまとめて分析したい
  • クラウド上で分析基盤を導入したい・・・
  • データを活用したいが、具体的に何から始めたらいいかわからない

データ分析の相談会、オーダーメイドの分析基盤構築の開発もおこなっています。お客様の課題にあわせた最適な構成をご提案いたします。お気軽にご相談ください。

データ分析相談会のお申込みはこちら

合わせて読みたい