[レポート] ANT202 : 最新のクラウドデータウェアハウス Amazon Redshift #reinvent

はじめに

ANT202-R1 - Modern Cloud Data Warehousing ft. Intuit: Optimize Analytics Practices の前半部分のセッションのレポートとなります。クラウドデータウェアハウスとありますが、内容はRedshiftのアップデートやパフォーマンスの改善とこれからのアップデートについて紹介です。

セッション概要

Most companies are overrun with data, yet they lack critical insights to make timely and accurate business decisions. They are missing the opportunity to combine large amounts of new, unstructured big data that resides outside their data warehouse with trusted, structured data inside their data warehouse. In this session, we discuss the most common use cases with Amazon Redshift, and we take an in-depth look at how modern data warehousing blends and analyzes all your data to give you deeper insights to run your business. Intuit joins us to share their experience modernizing their analytics pipeline.

ほとんどの企業ではデータが溢れていますが、タイムリーで正確なビジネス上の意思決定を行うための重要な洞察が欠けています。彼らは、データウェアハウス外の大量の新しい非構造化大容量データを、データウェアハウス内の信頼できる構造化データと結合する機会を逃しています。このセッションでは、Amazon Redshiftの最も一般的な使用事例について説明し、現代のデータウェアハウスがどのようにすべてのデータをブレンドして分析してビジネスをより深く理解するかを詳しく見ていきます。 Intuitは、分析パイプラインを近代化する経験を共有するために私たちに加わります。

スピーカー

AWS のデータベースと分析サービス

目的や用途に応じた幅広いデータベースと分析サービスが提供されています。

データは日々増加し、多様化する

人々が考えるよりも多くのデータがあります。データ量は5年毎に10倍に増加し、そのデータを15年間保存するとデータ量は約1000倍に達します。

これまで以上に多くのデータ種類が存在します。カラムナファイルフォーマット(Parquet, ORC)、CSV、ログファイル、JSON、ウェブのアクセスログなど、構造化データから非構造化データまで様々です。

これまで以上に多くのデータ分析方法があります。Hadoop、Elasticsearch、presto、Sparkなど時代の変化に伴いツールが登場し、ユースケースに応じて使い分けが必要です。

最新のデータウェアハウスの要件

  • データ、ワークロード、ユーザーの規模
    • 予測不可能な要求やデータ量でもパフォーマンスを保証するために、動的にスケールアップできること
  • 使いやすさ
    • 日常の管理作業やメンテナンスに時間を費やさずに済ませられること
  • より迅速なパフォーマンス
    • 何千もの同時クエリおよびユーザーがあっても、一貫して高速なパフォーマンスがが提供されること
  • データレイクによる拡張
    • データレイクに保存されているオープンフォーマットなデータを直接分析できること

最新のクラウドデータウェアハウス Amazon Redshift

最速

すべての種類の分析ワークロードに対してより迅速にインサイト(洞察)を得られます。マシンラーニング、カラムナストレージ、MPP(Massively Parallel Processing)を搭載しています。

無制限のスケール

予測不可能な分析要求やデータ量があっても、動的にスケールアップしてパフォーマンスを保証します。

データレイクを拡張

Redshiftの高性能SSDにロードされたデータと、S3データレイクのオープンフォーマットのデータをRedshiftの中で結合して分析します。

コストは1/10

時間当たり0.25ドルから開始し、自動化された管理タスクでコストを節約し、ダウンタイムによるビジネスへの影響がありません。テラバイトあたり年間1000ドルと低価格です。  

Amazon Redshift の1年間の機能と改善リリース、パフォーマンスの大幅な改善

昨年のre:Invent2017から今年のre:Invent2018までに、機能と改善リリースは220項目に及びます。

   過去6ヶ月間でパフォーマンスが3倍以上改善しました。

  

Amazon Redshift の最近の新機能 

Redshift Query Editor (9月にGA)

AWSマネジメントコンソールからRedshiftにログインしてクエリを実行できるようになりました。   

Elastic Resize (11月にGA)

Amazon Redshiftクラスターのノード数をこれまでより短い時間で増減させる機能です。一時的な高負荷処理のためにノードを追加するといった事が可能になります。  

Amazon Redshift の今後の新機能

Concurrency Scaling (Preview)

Concurrency Scaling によるスループットの向上し、ユーザーアクティビティのバーストにも対応しています。

  • オンデマンドで自動的に多くのクラスタを作成します
  • 何千もの同時クエリでも一貫して高速なパフォーマンス
  • 事前のクラスタは必要ありません
  • 予期しない需要変動に対応します

  • 並行処理のスケーリングは、Redshiftの顧客の97%以上が自由です
  • メインクラスタが使用されている24時間ごとに、同時実行スケーリングのために1時間のクレジットが発生します

  

Intelligent maintenance (Preview)

  • ANALYZE: がバックグラウンドで自動実行
  • VACUUM: VACUUM DELETEがバックグラウンドで自動実行
  • WLM Concurrency Setting: WLMの自動設定

 

Amazon Redshift Spectrum (Comming Soon)

  • UNLOADコマンドでカラムナファイルフォーマット Parquet によるファイル出力がサポートされます
  • Spectrum Request Accelerator (これ以上の情報がありません)

最新・今後の新機能一覧

  

セキュリティは標準で提供

  • エンドツーエンドの暗号化。
  • KMS(AWS Key Management Service)との統合

コンプライアンス認証も受けています。

データレイクの特長

Amazon Redshiftは、Redshift Spectrumを利用してデータレイクと連携できます。 連携するデータレイクは以下の特長があります。

  • 様々な方法でデータを持ち込める
  • テラバイトからエクサバイトのスケールに耐えうる
  • セキュリティは、コンプライアンスおよび監査機能を提供する
  • S3上の同じデータを移動することなくお好みの分析を実行できます
  • コンピュートとストレージは分離されているのでスケールします
  • ストレージと分析は低コストを考慮して設計されています  

最後に

クラウドデータウェアハウス Amazon Redshiftの1年間のアップデートやパフォーマンスの改善とこれからのアップデートについて紹介しています。この1年間で220項目に及ぶ機能と改善リリースにより半年間で3倍以上のパフォーマンスが改善しています。AWSはデータレイクに注力していますが、Redshiftもますます進化が止まりません。今回ご紹介した新機能がGAになりましたら改めてブログで紹介します。

なお、Intuitによる分析方法の最適化につきましては、公開資料をご覧ください。

合わせて読みたい

Amazon Redshift:AWS管理コンソール上で「クエリエディタ」機能が使えるようになりました

Amazon Redshift 新機能:『Elastic Resize』で短時間でのノード数変更(リサイズ)が可能になりました