「AWS re:Invent 2023 Analytics Updates」というタイトルで CM re:Growth 2023 in Sapporo に登壇しました #AWSreInvent #cmregrowth

2023.12.15

データアナリティクス事業本部コンサルティングチームの石川です。12/14(木)ふりかえり勉強会 CM re:Growth 2023 in Sapporoに参加してAWS re:Invent 2023 Analytics Updateについてお話をさせて頂きました。

登壇資料

Pre re:Invent / November Updates

re:Inventが始まる11月は、re:Invent期間中の発表に劣らないようなアップデートはあります。re:Inventの前に発表されたけど、すごいアップデートを「予選落ちアップデート」と呼んだりします。とにかく、注目度の高いアップデートについて、かいつまんで紹介しました。

  • Amazon RedshiftがマルチAZ がRA3クラスター向けに一般提供開始
  • Amazon Athenaがクエリパフォーマンスを強化するコストベースのオプティマイザーを追加
  • AWS GlueデータカタログがApache Icebergテーブルの自動圧縮をサポート
  • Amazon QuickSightでGoogle BigQueryに対する接続のサポートを開始
  • Amazon QuickSight launches a new redesigned analysis experience

re:invent 2023

クラスメソッドでは、AWS re:Invent2023のポータルサイト開設

クラスメソッド 速報、アップデート、やってみた、セッションレポートを提供

AWS Japan が公式のアップデート速報を提供しています

本日の勉強会で紹介できなかったサービスについてはこちらをご参照ください。

Amazon Redshift Upadtes

Amazon Aurora PostgreSQL, Amazon DynamoDB, Amazon RDS for MySQLで Amazon Redshift とのZero-ETL がプレビューで利用可能に

  • Amazon Aurora MySQL(11月にGA)に続き、Zero-ETLをサポートするサービスの追加
  • Redshiftから各DBのデータにアクセス、ほぼリアルタイムの分析や機械学習が可能になる
  • 「Zero」と名前についているようにETLの複雑なデータパイプラインの構築不要
  • その他にも
    • Amazon DynamoDB から Amazon Opensearch Service(Provision Cluster、Serverless)とのZero-ETLが利用可能(GA)
    • Amazon S3 から Amazon Opensearch Service(Provision Cluster) とのZero-ETL がプレビューで利用可能

Amazon Redshift Serverlessの次世代AIドリブンなスケーリングと最適化機能がプレビューで利用可能に

  • Redshift Serverlessは、データ量の変化・同時接続ユーザー・クエリの複雑さなどの、ワークロードにおける主要な観点の変化に応じて自動的にスケーリング
  • 内部テストでは、変化のあるワークロードに対して自動でコストパフォーマンスの向上

Amazon Redshift クエリエディタがAmazon Q generative SQLの新機能が発表されました(プレビュー)

  • Amazon Q generative SQL in Amazon Redshift Query Editor V2という、データから抽出したいことを自然言語で問い合わせして、SQLを生成する新機能が発表
  • 生成AI(Generative AI)をSQLに応用した生成SQL(Generative SQL)サービス

Amazon Redshift データ共有が複数のデータウェアハウスからの書き込みクエリをサポートしました(プレビュー)

  • データ共有を介した複数のデータウェアハウスからの書き込みクエリをサポート
  • AWSアカウント内またはアカウント間で読み取りと書き込みの両方のクエリをデータ共有で実行できるようになりました。

Amazon Athena Upadtes

Amazon AthenaとAmazon S3 Express One Zoneによるクエリを高速化

  • Amazon S3 Express One Zoneは、S3 Standardよりも最大10倍優れたパフォーマンス、一貫した1桁ミリ秒のレイテンシで毎秒数十万のリクエストを処理するように設計された新しいS3ストレージクラス
  • Amazon AthenaとAmazon S3 Express One Zoneストレージクラスに保存されたデータ使用すると、S3 Standardよりも最大2.1倍高速なクエリパフォーマンスの改善すると説明

Amazon QuickSight Upadtes

生成BI機能でデータ探索簡単に Amazon Q in QuickSightを発表

  • Amazon S3 Express One Zoneは、S3 Standardよりも最大10倍優れたパフォーマンス、一貫した1桁ミリ秒のレイテンシで毎秒数十万のリクエストを処理するように設計された新しいS3ストレージクラス
  • Amazon AthenaとAmazon S3 Express One Zoneストレージクラスに保存されたデータ使用すると、S3 Standardよりも最大2.1倍高速なクエリパフォーマンスの改善すると説明

AWS Glue Upadtes

AWS GlueのAmazon Q統合が発表、自然言語でのデータ統合パイプライン作成が可能に(Coming Soon)

  • 生成系AIアシスタントサービスであるAmazon Qを使うことで、自然言語でGlueによるデータパイプラインを作成
  • チャットインターフェースで自然言語でのトラブルシューティングも可能になり、Glue Jobの作成がスムーズになる

AWS Glue Data Qualityが異常検出と動的ルールに対応(プレビュー)

  • 従来のGlue Data Quorityは、ユーザーが定義したルールに従って、データの品質検査を実施できる機能
  • 今回の新機能で、データの変化を監視し、監視しているメトリクスが予想される値の範囲外の場合でも検知が可能になる

Amazon DataZone

Amazon DataZoneで生成系AIベースのビジネスデータカタログ強化のための機能が発表されました(プレビュー)

  • データカタログに記載する概要およびカラムの説明文を生成系AIでワンクリックで自動作成
  • 自動生成された説明文は、検索結果が詳細な説明、考えられる使用例、主要な列に基づいて表示されるようになるため、より充実した検索体験を可能にする

まとめ

  • Amazon Q
    • セキュリティとプライバシが組み込まれた生成AIアシスタント
    • 今後、開発者やデータを利活用するビジネスパーソンも支援する 将来的なAmazon DataZoneとの連携を鑑み、ビジネスメタデータを今から登録・充実させることが鍵となる
  • Amazon Redshift / Redshift Serverless
    • Data Sharingの読み書きも可能になり、1つのクラスタに集約する
    • OLTPとOLAPの混在するワークロードは、Zero-ETLというアプローチで解決(not HTAP)
    • Redshift Serverlessは、データ量の変化・同時接続ユーザー・クエリの複雑さなど、AIが必要に応じて自動的にスケーリング
  • Amazon S3 Express One Zone
    • Athena2.1倍、EMRが4.0倍、SageMaker5.8倍
    • 将来的に、他のアナリティクスサービスもパフォーマンス改善が期待できる