弊社イベントでRedshiftなどデータ分析系新機能についてまとめ紹介しました #cmregrowth

今回新機能へのリンクがとんでもなく多いです。
2020.12.23

毎年この時期に開催されるAWSの定期イベント"AWS re:Invent"のまとめ的な弊社イベントre:Growth 2020が、今年も2020年12月18日(金) に開催されました。

私はデータ分析領域について新機能・新サービスを紹介しました。そこで話した内容、話せなかった内容(持ち時間10分でしたからね…。)をお伝えします。

発表スライドはこちらです。

データ分析にまつわる周辺環境の変化

AWSの新機能の紹介に入る前に、個人的視界で見えた2020年のデータ分析関連の変化について解説しました。

データレイクとデータウェアハウスの進化

今年も世界中でデータ分析に関係する新製品やSaaSサービス、新機能が数多く提供されました。また「データレイク」という言葉は今年一年を通し、国内でもだいぶ浸透してきたように思います。弊社にも「データレイクを構築したいがどう始めたらよいか」といった相談を頂くことが多くなりました。そのデータレイクやデータウェアハウスにおいて、以下の変化を感じています。

新興ベンダーの台頭

商用RDBを源流とするデータプラットフォームSnowflakeや、分散処理フレームワークSparkの開発者が新たに開発したストレージレイヤDelta Lakeを利用できるDatabricksなど、ビッグデータを手軽に扱える新たなデータプラットフォームサービスが日本でも認知され、導入検討の動きが起きています。

データレイクとデータウェアハウスのボーダーレス化

上記新興データプラットフォームサービスは、最初から大量なデータ、半構造化データを蓄積/処理できるように設計されているため、データレイク/データウェアハウスと分けることなく一箇所にデータを置けることを謳い文句としています。現在ではデータレイクとデータウェアハウスを統合した「レイクハウス」という言葉が生まれ、広まってきています。
確かに利用者側からするとデータレイクもデータウェアハウスも区別することなく一貫してデータ検索ができるのは嬉しいことなので、この動きは今後も続くものと思われます。

外部連携強化

データが自由に扱えるようになると、今度は「データレイク/データウェアハウスのデータを(コピーしたりすることなく)そのまま別のシステムで使えるようにしたい」というニーズが発生します。そのための機能強化が必要とされています。

機械学習サービスとの連携

データレイク/データウェアハウスのデータをAPIやSQL関数として直接モデル作成、学習ができる機能です。例えば、Google BigQueryでは、BigQuery MLとして標準SQLで機械学習モデルを作成し実行できる機能が提供されています。

データウェアハウスをまたいだデータ分析の必要性

分析に必要なすべてのデータは、1つのデータウェアハウス内で管理されているのが理想的です。しかし実際にはデータウェアハウスを1つにまとめる事が困難な場合もあります。そのためには複数のデータウェアハウス、またデータレイクとデータウェアハウス、あるいはデータベースとデータウェアハウスなどを透過的に検索できる機能が必要とされています。

BIの進化

より人間側に寄り添った進化

BIツールの大きな進化の方向性としては「自然言語で分析ができるようになること」が挙げられます。Tableauは2019年にAsk Dataの名前で自然言語による検索機能を提供しました。GoogleはBigQueryにData QnAという新機能を提供しています。また、最初から自然言語問い合わせのような感覚で分析することを基本機能として提供しているThoughtSpotなど、ユーザがより簡単に分析できるようになるための努力/工夫が行われています。

AWS re:Invent 2020 onlineデータ分析系新サービスピックアップ

ここまでの状況を踏まえ、今年のAWS re:Invent 2020 onlineで発表された新機能を見てみると、確かに時代に沿った新機能が満遍なく提供されたなという印象になるかと思います。

今年はRedshift祭!!

今年のデータ分析系新機能は、とにかくRedshiftに集中していました。昨年のAWS re:Invent 2019で発表されつつも動きのなかったものから突如現れたものまで様々なものがありました。以下箇条書きで関連リンクをまとめましたので御覧ください。

AQUA(プレビュー)

RA3.xplus(GA)

AZ障害時に別AZへ移動(GA)

Data Sharing(プレビュー)

Amazon Redshift Performance Tuning – Automated(GA)

半構造化データ(プレビュー)

データレイク周辺

Amazon S3:オブジェクト更新直後でも常に強い整合性が実現(GA)

AWS Lake Formation:トランザクション対応、データアクセス制限ポリシーなど(プレビュー)

Amazon Kinesis Data Stream:データ保存期間7日→1年(GA)

Amazon EMR:EMR Studio (パブリックプレビュー)

外部連携

Amazon S3:複数の宛先バケットに対するS3レプリケーション(GA)

AWS Glue:AWS Glue Elastic Views(プレビュー)

Amazon Redshift:Amazon Redshift Federated Query MySQL対応(プレビュー)

他ML系

Amazon Redshift:Redshift ML(パブリックプレビュー)

Amazon Neptune:Neptune ML(GA)

BI周辺

Amazon QuickSite:QuickSite Q(プレビュー)

Amazon QuickSite:Amazon ElasticsearchServiceからのデータを視覚化(GA)、他