
クラスメソッド データアナリティクス通信(AWSデータ分析編) – 2025年7月号
クラウド事業本部コンサルティング部の石川です。今月号の注目のアップデートは、Amazon Redshift Serverless が 4 RPU 最小容量オプションを開始、Amazon Athenaの約一年ぶりのアップデート、Amazon S3 Tablesのコストを可視化やIceberg TableのZ-Orderソートのサポートなど、最新アップデート情報とその概要やポイントをご紹介します。
Amazon Redshift Serverless
新機能・アップデート
2025/06/04 - Amazon Redshift now supports increased concurrency for vacuum operations
Amazon Redshiftは、VACUUM操作の同時実行性を強化し、複数テーブルで同時にVACUUMを実行できるようになりました。これにより、メンテナンス時間が短縮され、リソースの有効活用が可能となります。自動・手動VACUUMの同時実行もサポートされ、運用負荷が大幅に軽減されます。特に多数のテーブルを管理している大規模なデータウェアハウス環境において、クエリパフォーマンスの安定化と運用負荷の軽減に貢献します。
2025/06/30 - Amazon Redshift Serverless now supports 4 RPU Minimum Capacity Option
Amazon Redshift Serverlessは、従来は8RPUが最小でしたが、4RPUから利用可能となり、小規模や低負荷なデータウェアハウスにも手軽に導入できるようになりました。4 RPU構成では最大32TBの管理ストレージ、テーブルあたり100カラム、64GBメモリが利用可能です。Amazon Redshift Provisioned Cluster(dc2.large)からの移行にも最適な選択肢です。
サービス終了予定
2025/06/30 - Amazon Redshift Python user-defined functions will reach end of support after June 30, 2026
Amazon RedshiftのPythonユーザー定義関数(UDF)は、2026年6月30日でサポート終了となります。2025年10月30日以降は新規作成も不可となり、AWSは既存のPython UDFのLambda UDFへの移行を推奨しています。
今後は、Amazon RedshiftとAWS Lambdaの統合により、Amazon Redshift LambdaのUDF(ユーザー定義関数)を作成できるようになります。この機能により、Lambdaで定義されSQLクエリで実行可能な関数の柔軟性、強化された統合、そしてセキュリティが向上します。
新機能が出る前に、AWS Big Data Blog で紹介されるというのも、これまでにないパターンです。Lambda UDFがリリースされたら改めて紹介します。
Amazon Athena
新機能・アップデート
2025/06/03 - Amazon Athena announces managed query results to streamline analysis workflows
Amazon Athenaは「マネージドクエリ結果」機能を追加し、クエリ結果を自動で保存・暗号化・管理できるようになりました。これにより、S3バケットの事前準備や不要な結果のクリーンアップが不要となり、分析・運用ワークフローが大幅に効率化されます。追加コストは発生せず、クエリ結果は24時間自動保存されます。
APIの変更点
2025/06/02 - Amazon Athena - 6 updated api methods
ワークグループAPIにマネージドクエリ結果のサポートを追加しました。マネージドクエリ結果の設定により、ユーザーはクエリ結果をAthena所有のストレージに保存できるようになります。
AWS Glue
新機能・アップデート
2025/06/26 - AWS Glue enables enhanced Apache Spark capabilities for AWS Lake Formation tables with full table access
AWS Glueは、ジョブロールに完全なテーブルアクセス権がある場合、AWS Lake Formationに登録したテーブルに対して、Glue 5.0のApache Sparkジョブからフルテーブルアクセスでの読み書き(CREATE、UPDATE、MERGE INTOなどのDML操作)をサポートしました。これまでLake Formationによる詳細な権限制御下では制限のあったDML操作が、GlueのSparkジョブから直接実行可能になります。
AWS Glue Data Catalog usage metrics now available with Amazon CloudWatch
AWS Glue Data Catalogが新たにAPI使用状況メトリクスをAmazon CloudWatchで提供開始しました。このアップデートによって、カタログ・テーブル・パーティションなどのリソースに対するAPIの読み取り・更新・削除回数などを1分単位で可視化・監視できます。CloudWatchアラームを設定すると、閾値超過時に即座に通知を受けられ、ボトルネックや異常検知、運用最適化が容易になります。運用現場での可観測性が大幅に向上し、安定したレイクハウス運用やコスト管理に貢献します。
APIの変更点
2025/06/20 - AWS Glue - 2 updated methods
AWS Glue Data Quality は、行レベルの結果を含む publishAggregatedMetrics が有効な場合、評価結果に集計メトリクスを提供するようになりました。これらのメトリクスには、処理済み、合格、不合格の行とルールの合計数を単一のビューで表示するサマリー統計が含まれます。
2025/06/23 - AWS Glue - 5 updated methods
AWS Glue では、binpack に加えて、Iceberg テーブルの管理された自動圧縮のためのソートおよび Z オーダー戦略もサポートされるようになりました。
2025/06/27 - AWS Glue - 16 updated methods
AWS Glue は、Glue SDK を使用して Apache Iceberg テーブルのスキーマ、パーティション、ソート管理をサポートするようになりました。
2025/06/30 - AWS Glue - 3 updated api methods
ODB統合のソースプロパティをサポートするためにソース処理プロパティをリリースしました。
Amazon SageMaker Unified Studio
新機能・アップデート
2025/06/06 - Upgrade Experience from Amazon SageMaker Studio to SageMaker Unified Studio
Amazon SageMaker Studioは、SageMaker Unified Studio へアップグレードが可能となり、従来の機能に加え、データカタログ管理やLakehouse基盤の統合、SQL分析やAIユースケースへの拡張が可能になりました。DataZoneとの連携強化により、既存アセットやメタデータも統合管理でき、段階的な移行や既存リソースの継続利用も可能です。
SageMaker Studio から SageMaker Unified Studio へのアップグレードスクリプトが 下記のGitHub repo より提供開始されています。
2025/06/25 - Amazon SageMaker now supports automatic synchronization from Git to S3
Amazon SageMaker Unified Studioに新機能として、Gitリポジトリのファイルを自動的にAmazon S3バケットへ同期する機能が追加されました。この機能によって、コードの変更が即座に本番環境へ反映され、手動同期の手間が省け、開発者のワークフローが効率化されます。特にETLフローやSQLクエリブックの最新コード管理に有効で、信頼性の高い実行環境を維持可能です。
DataOpsやMLOpsのパイプライン構築など、これまで手動やカスタムスクリプトで行っていたGitリポジトリのコードとS3上のSQLやデータ、成果物などの同期が自動化されることで、開発から本番環境へのデプロイプロセスを安定かつ高速化されます。
2025/06/26 - Amazon SageMaker contributes a custom transport to OpenLineage community and offers additional lineage capabilities
Amazon SageMakerは、OpenLineageコミュニティに独自トランスポート AmazonDataZoneTransport を提供し、AWS GlueやAmazon Redshiftなどからの自動リネージ機能を強化しました。この機能は、データやモデルの流れを自動で可視化・追跡でき、データガバナンスやトレーサビリティが向上します。複雑なデータ操作のリネージも自動取得できるため、データエンジニアやサイエンティストの作業効率化が期待されます。
OpenLineageとの連携強化により、AWSに限らず様々なETL/DWHの処理も含めたエンドツーエンドのデータリネージを予感させる期待のアップデートです。
APIの変更点
2025/06/19 - Amazon SageMaker Service - 4 updated methods
SageMaker プロジェクトで S3 からの CloudFormation テンプレートを利用するための代替サポートが導入されています。
これまでSageMakerプロジェクトのインフラ構成はService Catalog経由が主でしたが、新たにTemplateProviders パラメータを通じて、S3に保存したCloudFormationテンプレートを直接指定し、プロジェクトの作成・更新時に利用できるようになりました。
Amazon DataZone
新機能・アップデート
2025/06/02 - Amazon DataZone launches upgrade domain to SageMaker
Amazon DataZoneは、Amazon SageMakerとの連携強化として、DataZoneドメインをGUI操作でSageMaker Catalogに直接アップグレードできる機能をリリースしました。これにより、DataZoneで作成・管理したアセットやメタデータ、用語集などのコンテンツを、SageMaker Unified Studio上でそのまま利用可能となり、SQL分析やAI活用など新たなユースケースへ拡張できます。アップグレード後も両ポータルにアクセスでき、段階的な移行やビジネス継続性が確保されます。
Amazon OpenSearch Serverless
新機能・アップデート
2025/06/06 - Ingest data from Atlassian Jira and Confluence into Amazon OpenSearch Service
Amazon OpenSearch Ingestionが、Atlassian JiraおよびConfluenceからのデータ取り込みと自動インデックス化に対応しました。プロジェクトやページ単位で柔軟にフィルタリングでき、変更も自動同期されます。APIキーやOAuth2認証、AWS Secrets Managerによるセキュアな接続もサポートしました。JiraやConfluenceの情報を横断検索できるナレッジベースを容易に構築でき、RAGアプリケーションの精度向上や業務効率化が期待されます。
Amazon EMR / EMR Sererless
新機能・アップデート
2025/06/24 - Amazon EMR on EKS now supports Service Quotas
Amazon EMR on EKSがService Quotasに対応し、クォータ上限の確認や上限緩和申請がService Quotasコンソールから直接可能になりました。対象リクエストの上限引き上げが自動承認されるケースが増え、応答時間短縮やサポートチケット削減が期待できます。また、CloudWatchアラーム連携で利用状況の可視化・通知も強化され、運用効率と柔軟性が向上します。
APIの変更点
2025/06/03 - EMR Serverless - 1 updated methods
AWS EMR Serverlessは、EMR 7.9.0以降、CancelJobRun APIに、猶予期間を設けてジョブをキャンセルする新しいオプションが追加されました。この機能は、ストリーミングジョブでは120秒の猶予期間付きでデフォルトで有効になっていますが、バッチジョブではデフォルトで無効になっています。
2025/06/12 - EMR Serverless - 1 updated methods
GetJobRun API 応答のオプションの executeIamPolicy フィールドの取得のサポートが追加されました。
2025/06/19 - EMR Serverless - 3 updated methods
EMR Serverless アプリケーションでインタラクティブ セッションを実行しているユーザーに対して IAM IdentityCenter の信頼できる ID の伝播を有効にする機能が追加されました。
Amazon MSK
新機能・アップデート
2025/06/10 - Express Brokers in Amazon MSK now support Apache Kafka version 3.8
Amazon MSKのExpress Brokersは、Apache Kafkaバージョン3.8をサポート開始しました。新機能やバグ修正、パフォーマンス向上の他に、特にlz4、zstd、gzip形式の圧縮レベル設定が可能となり、圧縮効率とリソース使用量のバランスを細かく制御できます。新規・既存クラスターとも簡単に移行可能です。ネットワーク帯域やストレージコストを最適化しながら、ストリーミングデータの処理性能を維持・向上させることが可能になります。
Amazon S3
新機能・アップデート
2025/06/11 - Amazon S3 Tables now provide storage cost visibility for individual tables
Amazon S3 Tablesは、個々のテーブル単位でストレージコストを可視化できる新機能を追加しました。これにより、データレイク内の各テーブルごとにストレージ、APIリクエスト、メンテナンスの費用をAWS Cost ExplorerやAWS Cost and Usage Reportsで把握・分析可能となります。プロジェクトや部門ごとのコスト配賦やリソース最適化の意思決定が容易になるのが大きなメリットです。
従来は難しかった細かなコスト分析が可能となり、無駄なリソースやコストの発見・削減が期待できます。特に複数部門や多用途でS3 Tablesを利用する企業にとって、コスト管理と最適化が大幅に効率化されるでしょう。
2025/06/24 - Amazon S3 Tables now provide storage cost visibility for individual tables
Amazon S3 Tablesは、Apache Icebergテーブル向けにSort compactionとZ-order compactionを新たにサポートしました。S3 Tablesおよび一般的なS3バケットで、クエリ時にスキャンされるファイル数が削減され、パフォーマンス向上とコスト削減が実現します。sort
は指定カラムでデータを並べ替え、z-order
は複数カラムを効率的にプルーニングします。
素晴らしいアップデートですね!!!
この2つの違いをデータ配置の考え方で例えるなら、一方は単一の軸(辞書順)でデータを並べるソート、もう一方は複数軸を組み合わせるZ-order(空間充填曲線)を用いたソート、と捉えることができます。Amazon Redshiftの機能では、前者が**Compound sort key
、後者がInterleaved sort key
**に相当します。どちらの方式が適しているかは状況によるため、特性に応じて使い分けるとよいでしょう。
最後に
今月は、各サービスの連携強化や自動化、パフォーマンス向上、コスト最適化など、現場の課題解決に直結する機能が数多く追加されていることがわかります。Amazon Redshift Serverless が 4 RPU 最小容量オプションのサポートを開始しました。また、SageMaker Unified Studioの進化やS3 Tablesのコスト分析機能、GlueやAthenaの運用効率化などは、データ活用の現場に大きなインパクトを与えるでしょう。
Amazon SageMaker StudioやAmazon DataZoneのAmazon SageMaker Unified Studioへのアップグレード(マイグレーション)のサポートなど、今後、Data とAI関連のサービスがAmazon SageMakerに統合されていくという潮流を感じており、この流れは今年のre:Inventまで踏襲することが予想されます。
この1ヶ月、Amazon Q Developer、Claude Code、Gemini CLIなどなど、振り回されっぱなしでした。『乗るしかない このビッグウェーブに!』ですね。では、また。