クラスメソッド データアナリティクス通信(AWSデータ分析編) – 2024年7月号
クラスメソッドの石川です。日々AWSのアナリティクス関連サービスのアップデートとそのブログをご紹介します。
今月は、Amazon DataZoneは使い勝手の良いアップデートやカラムレベルのデータリネージ(プレビュー)などのビックアップデートがありました。また、生成AI関連で注目度の高いOpenSearch/OpenSearch Serverlessのアップデートがたくさんありました。(あれ?、Athena無いぞ!)
他にもアップデートがあるので紹介します!
Amazon Redshift
新機能・アップデート
2024/06/18 - Amazon Redshift が VARBYTE 16MB データ型のサポートを発表
Amazon Redshift は、VARBYTE データ型の最大サイズを拡張しました。以前の最大サイズは 1,024,000 バイト (1MB) でしたが、16,777,216 バイト (16MB) まで拡張されました。
VARBYTE とは、可変長のバイナリ文字列を格納するためのデータ型です。Parquet、CSV、テキストファイル、画像、圧縮データなどの情報を格納するのに適しています。
VARBYTE カラムを作成する際に別途サイズを指定しない場合、そのカラムのデフォルトサイズは64,000 バイト (64KB) であることに注意してください。
2024/06/18 - Amazon Redshift クエリエディタ V2 が 100 MB のファイルのアップロードのサポートを開始
Amazon Redshift Query Editor V2は、アップロードできるローカルファイルのサイズ上限が引き上げられました。 これまでは 5MB までしかアップロードできませんでしたが、新しい上限は 100MB です。
これにより、より大きなサイズのデータセットを直接ローカル環境から読み込むことが可能になりました。データアナリスト、エンジニア、開発者は、Query Editor V2 を使って、Redshfit のクラスターやワークグループに、CSV や JSON などの構造化されたデータをロードしやすくなります。
Amazon QuickSight
新機能・アップデート
2024/06/27 - Amazon QuickSight simplifies building pixel-perfect reports with Repeating Sections
Amazon QuickSight におけるピクセルパーフェクトレポートに、新しい「繰り返しセクション」機能が追加されました。これにより、レポート作成者は、レポート内のセクションを、データ内の 1 つまたは複数のディメンションの値に基づいて自動的に繰り返すように設定できるようになります。
なお、ピクセルパーフェクトレポートとは、ダッシュボードやレポートを特定の画面サイズに合わせて完全に調整し、あらゆるデバイスでデザインどおりに表示できるようにする機能で、ユーザーは常に一貫した見栄えと操作性を提供します。
APIの変更点
2024/06/27 - AWS Glue - 4 updated api methods
繰り返しセクションと入れ子フィルタのサポートを追加。
Amazon Glue
新機能・アップデート
2024/06/18 - AWS Glue サーバーレス Spark UI がローリングログファイルのサポートを開始
AWS Glue ETL jobのSpark Web UI がローリングログファイルへのサポートを発表しました。ローリングログファイルのサポートにより、長時間実行されるバッチジョブやストリーミングジョブの詳細情報を Spark Web UI で確認できるようになります。
なお、AWS Glue サーバーレス Spark UI のローリングログファイルのサポートは、AWS Glue 4.0 以降で利用可能です。
2024/06/18 - AWS Glue Usage Profiles is now generally available
AWS Glue において、ジョブやノートブックセッションが消費するリソースに対して、管理者があらかじめ制限をかけられるようになる新機能「AWS Glue Usage Profiles」がリリースされました。これにより、コスト管理がより柔軟に行えます。
具体的には、管理者は様々なタイプのユーザー向けに別々のUsage Profileを作成できます。Usage Profileは、ワーカーの数やタイムアウト時間など、リソース利用の上限値を定義したものです。例えば、本番パイプラインを構築するデータエンジニア向けのプロファイルではワーカーの上限値を外す一方、テストユーザー向けのプロファイルでは制限をかけるといった使い分けが可能です。
設定手順としては、AWS Glue Studio コンソールもしくは Glue Usage Profiles API を使って新しい使用プロファイルを作成し、IAM ユーザーやロールに紐づけます。これで設定が完了すると、紐づけられた IAM ユーザーやロールで作成される Glue ジョブやセッションは、割り当てられた使用プロファイルで指定された制限内で動作するようになります。
2024/06/19 - AWS Glue adds additional 13 new transforms including flag duplicates
AWS Glueというサービスに、13個の新しい機能が追加されました。
- Flag duplicates in column
- Format Phone Number
- Format case
- Fill with mode
- Flag duplicate rows
- Remove duplicates
- Month name
- Is even
- Cryptographic Hash
- Decrypt
- Encrypt
- Int to IP
- IP to int
APIの変更点
2024/06/05 - AWS Glue - 4 updated api methods
AWS Glueは、Salesforceコネクタが利用可能になりネイティブSaaS接続に対応しました。
2024/06/06 - AWS Glue - 8 updated api methods
Glue Data Catalog Viewsの作成と更新のサポートが追加されました。
2024/06/13 - AWS Glue - 2 updated api methods
Glue Data Qualityルールセットにおける複合ルールの評価方法の設定に対応しました。
2024/06/17 - AWS Glue - 5 new 12 updated api methods
Usage Profileが導入されました。Usage Profileにより、AWS Glue の管理者は、アカウント内の様々なクラスのユーザーに対して異なるプロファイルを作成し、ジョブやセッションの制限やデフォルトを適用することができます。
2024/06/28 - AWS Glue - 1 updated api methods
Glue GetDatabasesにAttributesToGetパラメータを追加し、データベース名のみを含むように出力を制限できるようにしました。
Amazon DataZone
新機能・アップデート
2024/06/14 - Amazon DataZone が SOC、ISO、CSTAR 認証を取得
Amazon DataZone は、組織内のデータのカタログ作成、検出、分析、共有、ガバナンスを行うマネージドサービスです。
取得した認証には、SOC 1、SOC 2、SOC 3 があり、独立した第三者機関による監査を通じて、Amazon DataZone のコンプライアンス・コントロールの有効性が検証されています。
また、Amazon DataZone は、品質、安全性、効率性、相互運用性に関して厳しい基準を設けている国際標準化機構 (ISO) の認証を取得しました。取得した ISO 認証には、ISO 9001、ISO/IEC 27001、ISO/IEC 27017、ISO/IEC 27018、ISO 22301、ISO/IEC 27701、ISO/IEC 20000 が含まれます。
さらに、Amazon DataZone は、クラウドサービスのセキュリティとプライバシーコントロールの評価を行う Cloud Security Alliance Security, Trust & Assurance Registry (CSA STAR) 認証 (CCM 4.0) も取得しました。
2024/06/14 - Amazon DataZone introduces advanced search filtering capabilities
Amazon DataZoneは、ビジネスデータカタログの検索機能が強化されました。強化された点は以下の3つです。
- 用語集のファセット表示の改善
- 用語集にある用語をより見やすく階層構造で表示します。
- 論理演算子の選択
- 検索条件を絞り込む際、"AND" (かつ) と "OR" (または) を選択して、より正確な検索が可能です。
- 選択したフィルタの集計表示
- 選択した検索条件がわかりやすくまとめられ、検索結果の微調整が簡単になります。
例えば、財務アナリストが投資パフォーマンスのレポートを作成する際、用語集から階層構造のリストの中から関連する用語を選択できます。さらに、"OR" を使って検索範囲を広げたり、"AND" を使って投資の種類や業界といった条件を組み合わせたりして、より正確なデータを探すことができます。また、選択した検索条件がまとまって表示されるので、検索結果を効率的に調整できます。
※ ファセット検索: 検索結果を複数の属性(ファセット)で絞り込むことができる検索方法です。例えば、複数の属性を組み合わせて検索結果を絞り込んだり、必要に応じて条件を追加・削除しながら段階的に絞り込みながら目的の情報にたどり着けます。また、検索対象のデータ構造や属性の分布が一目でわかりることができます。
2024/06/18 - Amazon DataZone launches custom blueprint configurations for AWS services
Amazon DataZone はカスタムブループリント追加できるようになりました。カスタムブループリントを使用すると、管理者は既存の IAM ロールを活用して、そのロールが所有する既存のデータ資産を DataZone カタログに登録することができます。これにより、ガバナンスされたデータ共有が確立され、インフラストラクチャー全体のガバナンスが強化されます。
2024/06/27 - Amazon DataZone introduces API-driven, OpenLineage-compatible data lineage visualization in preview
Amazon DataZoneがAPIドリブンのOpenLineage互換のデータリネージ機能をプレビューで公開しました。データリネージは、データが生成、変換、移動される過程を可視化できるようにしています。OpenLineage対応システムやAPIを利用して、データのソースから最終的な利用箇所までの流れを追跡できます。
Amazon DataZoneのデータリネージ機能は、データ資産やカラムの変換をキャプチャして可視化することで、データがソースからどのように利用されているのかをわかりやすく示してくれます。ドメイン管理者やデータ作成者は、Amazon DataZoneのOpenLineage互換APIを使用して、Amazon S3、AWS Glueなどの他のサービスでの変換を含む、Amazon DataZone上で利用できる以上のリネージイベントをキャプチャして保存することができます。
※ OpenLineageとは: データリネージの業界標準となることを目指すオープンソースプロジェクトです。データリネージとは、データが生成、変換、移動される過程を記録追跡するものです。OpenLineageは、JSONベースのリネージイベントスキーマ定義、JavaやPython向けのリネージイベント構築用ライブラリ、ETLツールとの統合などを提供します。
APIの変更点
2024/06/14 - Amazon DataZone - 7 new 4 updated api methods
カスタム環境作成のための新しいカスタムブループリント機能に対応しました。
2024/06/27 - Amazon DataZone - 3 new 1 updated api methods
Amazon DataZoneのビジネスデータカタログのデータリネージ機能をサポートしました。
Amazon EMR
APIの変更点
2024/06/28 - Amazon EMR - 3 updated api methods
このリリースでは、インスタンス・フリート・クラスタの各インスタンス・タイプの優先順位の値を入力することで、スポット用のCAPACITY_OPTIMIZED_PRIORITIZEDとオンデマンド用のPRIORITIZEDという新しい割り当て戦略をサポートしています。
Amazon EMR Serverless
新機能・アップデート
2024/06/04 - Introducing Amazon EMR Serverless Streaming jobs for continuous processing on streaming data
Amazon EMR Serverless は、ストリーミングジョブモードが新たに追加され、ストリーミングデータの継続的な分析と処理が可能になりました。
ストリーミングデータは、センサー、IoT デバイス、ウェブログなどのデータソースから継続的にインサイトを得るために重要ですが、処理には高可用性、障害復旧、ストリーミングサービスとの統合などが必要となり、複雑になることもありました。Amazon EMR Serverless Streaming ジョブは、これらの課題に対処するための機能を備えています。
- 高可用性
- マルチ AZ (アベイラビリティーゾーン) レジリエンスにより、障害が発生した場合に自動的に健全な AZ にフェイルオーバーすることで実現します。
- 耐障害性
- ジョブの自動再試行機能と、ログファイルの蓄積を防ぐログローテーションや圧縮などのログ管理機能により、障害発生時の復旧を容易にします。
- ストリーミングサービスとの統合
- 自己管理型 Apache Kafka クラスタ、Amazon Managed Streaming for Apache Kafka などに加え、新たに Amazon Kinesis Data Streams Connector が組み込まれ、Amazon Kinesis Data Streams との連携が容易になり、エンドツーエンドのストリーミングパイプラインの構築が容易になりました。
Amazon OpenSearch Serverless
新機能・アップデート
2024/06/05 - Amazon OpenSearch Serverless slashes entry cost in half for all collection types
Amazon OpenSearch Serverless の新機能として、小規模な検索や分析ワークロードをより安価に実行できるようになりました。OpenSearch Serverless では、データのインデックス作成と検索に必要なコンピューティングリソースの単位として OpenSearch Compute Unit (OCU) が使用されます。従来、高可用性を実現した本番環境での導入には、障害発生時に備えた冗長性を確保するため最低 4 OCU が必要でした。
今回導入された 0.5 OCU により、OpenSearch Serverless の本番環境はわずか 2 OCU からデプロイできるようになりました。この内訳は、プライマリインデックスノードとスタンバイインデックスノードがそれぞれ 0.5 OCU で計1OCU、そして検索用には別々のアベイラビリティゾーンにある 2つの0.5 OCU アクティブレプリカノードの合計 1OCU です。OpenSearch Serverless はワークロードの需要に応じて自動的に OCU をスケールアップします。
さらに、高可用性が不要な開発/テスト環境向けには、インデックス作成と検索にそれぞれ 0.5 OCU を割り当てた 1 OCU のデプロイオプションが用意されており、コストをさらに半減できます。
Amazon OpenSearch
新機能・アップデート
2024/06/06 - Amazon OpenSearch Ingestion now supports ingesting streaming data from Amazon MSK Serverless
Amazon OpenSearch Ingestion が Amazon Managed Streaming for Apache Kafka (MSK) Serverless からのストリーミングデータ取り込みに対応しました。これにより、Amazon MSK Serverless クラスターのデータを、外部のデータコネクタを必要とせずに、Amazon OpenSearch Service のマネージドクラスターや Serverless コレクションにシームレスにインデックスできるようになります。
今回の機能追加により、Amazon OpenSearch Ingestion を使って、Amazon MSK Serverless から取り込んだデータに対してほぼリアルタイムでの集計、サンプリング、異常検出が行えるようになります。これにより、複雑なオブザーバビリティ (可観測性) や分析ユースケースのための効率的なデータパイプラインを構築できます。
2024/06/12 - Amazon OpenSearch Ingestion がカスタマーマネージドの VPC インターフェイスエンドポイントのサポートを追加
Amazon OpenSearch Ingestion が、VPCエンドポイントの作成をサポートするようになりました。これにより、AWS PrivateLink を介して VPC を Amazon OpenSearch Ingestion パイプラインに安全に接続できます。VPC リソースへのアクセスを必要とするエンティティだけにアクセスを制限することで、ネットワークとセキュリティの姿勢をより細かく制御できるようになります。さらに、1 つの AWS アカウント内の複数の VPC を 1 つの Amazon OpenSearch Ingestion パイプラインに接続できるようになり、集中ログ収集のためのネットワークアーキテクチャを構築できます。
2024/06/19 - Amazon OpenSearch Service now supports JSON Web Token (JWT) authentication and authorization
Amazon OpenSearch Serviceでは、Amazon Cognitoや内部ユーザーデータベースを使ったクライアント/ユーザー認証に加え、新たに JSON Web Token (JWT) による認証機能が追加されました。
JSON Web Token (JWT) とは、トークンベース認証で使用されるオープンスタンダード規格です。ユーザー認証や認可情報を安全に伝送するために利用されます。従来のセッションベース認証では、認証サーバーがログイン情報を保持するセッションを管理する必要がありました。一方、JWT認証では、外部認証プロバイダー と連携し、認証情報を毎回入力する必要がなくなります。また、マルチテナントアプリケーションにおいて、テナント間の分離も容易になります。
2024/06/26 - Amazon OpenSearch Ingestion adds supports to ingest streaming data from Confluent Cloud
Amazon OpenSearch Ingestionは、Confluent Cloud Kafka から のストリーミングデータを コネクタなしでIngestion (取り込み) できるようになり、よりシームレスにデータを取り込めるようになりました。
APIの変更点
2024/06/12 - Amazon OpenSearch Ingestion - 5 updated api methods
OpenSearch インジェストパイプラインのセルフマネージドVPC エンドポイントの SDK を変更しました。
2024/06/19 - Amazon OpenSearch Service - 7 updated api methods
Amazon OpenSearch Serviceドメインでの認証にJSON Web Tokens (JWT)を使用できるようになります。
2024/06/26 - Amazon OpenSearch Service - 7 updated api methods
Amazon OpenSearch ServiceドメインのNatural Language Query Processing機能を有効または無効にするためのサポートが追加され、セットアップまたは Tear-down の現在の状態が可視化されます。
Amazon Data Firehose
新機能・アップデート
2024/06/07 - Amazon Data Firehose now supports integration with AWS Secrets Manager
Amazon Data Firehose (Firehose) が AWS Secrets Manager (Secrets Manager) と連携できるようになりました。これにより、データベースの認証情報や鍵などのシークレットを Firehose の設定で直接入力する必要がなくなりました。
Secrets Manager連携機能により、Firehose の設定でシークレットを直接入力する必要がなくなりました。これにより、Firehose の設定画面や API パラメータにシークレットが平文で表示されなくなるセキュリティ強化や Secrets Manager で自動的にシークレットをローテーション (更新) できることで運用管理が簡素化されます。 Firehoseでは、以下の配信先への接続に Secrets Manager を使ってシークレットを利用できます。
- Amazon Redshift
- Custom HTTP endpoint,
- Snowflake
- Splunk
- Coralogix
- Datadog
- Dynatrace
- Elastic
- Honeycomb
- LogicMonitor
- Logz.io
- MongoDB Cloud
- New Relic
APIの変更点
2024/06/06 - Amazon Kinesis Firehose - 3 updated api methods
Secrets Managerの連携先として、Redshift、Splunk、HttpEndpoint、Snowflakeが追加されました。
Amazon MWAA
新機能・アップデート
2024/06/18 - Amazon MWAA now supports Custom Web Server URLs
Amazon Managed Workflows for Apache Airflow (MWAA) は、Airflow ウェブサーバーのカスタムドメイン名をサポートするようになりました。
今回、Amazon MWAA では、MWAA のシングルサインオン (SSO) がユーザーの IAM クレデンシャルによる認証後、リダイレクト先の URL をカスタマイズできる機能が追加されました。これにより、プライベートウェブサーバー、ロードバランサー、カスタム DNS エントリー、またはプロキシを使用しているお客様は、ユーザーフレンドリーなウェブアドレスにユーザーを誘導することができ、MWAA の IAM統合のシンプルさを維持できます。
Amazon MSK
新機能・アップデート
2024/06/25 - Amazon MSK supports in-place upgrades from M5, T3 instance types to Graviton3 based M7G
Amazon Managed Streaming for Apache Kafka (Amazon MSK) プロビジョンドクラスタは、従来の M5 または T3 インスタンス (X-86ベース) で動作していたクラスタを、ワンクリックでGraviton3 プロセッサ搭載 M7G インスタンスにアップグレードできるようになりました。インプレイス・アップグレードにより、既存のプロビジョンド・クラスターを M7G インスタンスタイプにシームレスに切り替えることができ、接続しているクライアントアプリケーションへの読み込みと書き込みを継続しながら、コストパフォーマンスを向上させることができます。
M7G インスタンスへの切り替えにより、従来の M5 インスタンスを使用した MSK クラスターと比較して、最大 24% のコンピューティングコスト削減と、最大 29% の読み取り/書き込みスループット向上を実現できます。さらに、M7G インスタンスは同等のインスタンスと比べて最大 60% の低消費電力となっており、Kafka クラスターの環境持続可能性を高めることができます。
Amazon Managed Service for Apache Flink
新機能・アップデート
2024/06/26 - Amazon Managed Service for Apache Flink now supports system-rollback
Amazon Managed Service for Apache Flink のシステムロールバック機能は、Flink ジョブの送信中にコードや設定エラーが発生した場合に、自動的にアプリケーションを前の正常動作していたバージョンにロールバックさせるものです。これにより、アプリケーションの稼働率を向上させることができます。
アプリケーションの更新、Flink バージョンのアップグレード、スケーリングなどの操作を行うと、権限不足、互換性のない保存ポイントなど、エラーが発生する可能性があります。システムロールバック機能は、ジョブ送信時にこのようなエラーを検出し、アプリケーションの更新失敗を防ぎます。これにより、より高い信頼性を持ってアプリケーションの変更を迅速に導入できるようになります。
2024/06/26 - Amazon Managed Service for Apache Flink introduces two new APIs to query operations on Flink applications
Amazon Managed Service for Apache Flink は、新たに導入された2つのAPIが導入されました。ListApplicationOperations API と DescribeApplicationOperation API を使用すると、アプリケーションに対して実行された操作の詳細を確認することができます。具体的には、操作が開始された日時、現在のステータス (成功、失敗など)、操作によってロールバックがトリガーされたかどうかなどの情報が得られ、後続のアクションを取ることができます。
2024/06/26 - Amazon Managed Service for Apache Flink now supports Apache Flink 1.19
Amazon Managed Service for Apache Flinkは、Apache Flink 1.19 をサポート開始しました。Apache Flink 1.19 の新機能は、以下の3つです。
- SQL API の強化: 状態の有効期限設定 (TTL) やセッションウィンドウのサポート
- Python 3.11 のサポート
- ジョブの再起動やチェックポイント作成時のトレースレポート生成機能
既存のアプリケーションを Flink 1.19 にアップグレードするには、インプレイスバージョンアップグレードを利用できます。
APIの変更点
2024/06/26 - Amazon Kinesis Analytics - 2 new 11 updated api methods
新しい ListApplicationOperations および DescribeApplicationOperation API のサポートが追加されました。また、システムのロールバックを有効にする新しい設定が追加され、より明瞭にするために ApplicationVersionCreateTimestamp フィールドが追加され、API のページネーションのサポートが改善されました。
2024/06/28 - Amazon Kinesis Analytics - 8 updated api methods
Managed Service for Apache FlinkでFlink 1.19をサポート。
最後に
今月号で特に気になったのが、寝耳に水の「Amazon DataZoneのカラムレベルのデータリネージ(プレビュー)」です。データリネージは、データの生成、変換、移動の過程を可視化するために、ETLサービスと密接に統合されるのが一般的です。しかし、DataZoneは、オープンな仕様であるOpenLineage互換のリネージイベントを収集・可視化する機能を提供することにより、リネージ情報を提供するETLサービスと疎結合な設計を採用しています。この結合なアーキテクチャにより、DataZoneは様々なサービスと連携できる柔軟性を持ち、将来的な拡張性にも優れています。すぐに試したい!