Amazon RedshiftへのAurora MySQL zero-ETLが一般提供を開始しました
データアナリティクス事業本部 機械学習チームの鈴木です。
Amazon RedshiftへのAurora MySQL zero-ETLが一般提供を開始しました。東京リージョンでも利用可能です!
Aurora MySQL zero-ETLとは
Aurora MySQLからAmazon Redshiftへほぼリアルタイムの連携し、Redshiftでの分析と機械学習ができる、Amazon Aurora MySQL向けの機能になります。
この設定をしておくことにより、データがAuroraに書き込まれてから数秒以内に、そのデータはAmazon Redshiftで利用できるようになるという、非常に強力な機能です。
昨年のre:Invent2022で発表された新しいサービスで、以下の速報ブログでご紹介していました。
利用イメージ
以下のAWS News Blogにてコンソールでの操作例も含めた記事が出ていたのでご紹介します。
RDSのコンソールより、データソースとなるデータベースと、ターゲットとなるデータウェアハウスを選択するだけで設定が完結するのでとても良いですね。これで、分析のためにAurora MySQLのインスタンスからRedshiftクラスターにETLでデータ連携をする必要がなくなりました。
ETLパイプラインは、ETL処理実行のために一度別のコンピューティングリソースを挟むのでどうしても障害になりやすい課題がありました。Aurora MySQL zero-ETLにより、少なくともこの仕組みがカバーする範囲ではETLパイプラインが不要になることで、根本的にこの課題を解決できるのはすごいことだと思います。
料金について
『Amazon Aurora MySQL zero-ETL Integration with Amazon Redshift』ページに記載がある通り、zero-ETLによって直接的に料金がかかることはありません。(すごい!)
ただし、この機能によってできたテーブルのストレージコストであったり、cross-AZのデータ転送料金などはかかりますので、利用にあたってそれらの点は忘れず見積もって頂くと良いかなと思います。
やってみたいこと
データ共有を利用して、例えば機械学習用途のためのRedshiftクラスターにデータ共有するといったことをできるといいなと思っています。
Aurora MySQL zero-ETLにより、アプリケーション用のAurora MySQLに対して、分析用途のRedshiftが用意できるようになりました。Redshiftは別の仕組みとしてデータ共有によりETLパイプラインなしで別のRedshiftクラスターにデータの連携ができます。データ消費用のRedshiftに入れてしまえば、Redshift MLや単純にRedshiftからデータを読み出してSageMakerなど機械学習系サービスからモデル訓練や推論に使うこともできるので、非常に簡単に分散したデータをリアルタイム性が高く収集・連携の仕組みが作成できると期待しています。
Redshiftでのデータ共有は、例えば以下の記事で検証していました。
データ共有はLakeFormationやDataZoneからも利用でき、各種ガバナンス系のサービスと組み合わせることができます。
最後に
Amazon RedshiftへのAurora MySQL zero-ETLが一般提供を開始したのでご紹介しました。アプリケーションからRedshiftへのデータ連携が非常に簡単に実現できるようになったので、とてもワクワクするアップデートです!