[レポート]ANT322 – 「Amazon Kinesisによるハイパフォーマンスデータストリーミング: ベストプラクティス」 #reinvent

re:Invent2018,4日目のセッションANT322 - High Performance Data Streaming with Amazon Kinesis: Best Practicesのレポート記事です。
2018.12.03

セッション概要

【Title】
ANT322 - High Performance Data Streaming with Amazon Kinesis: Best Practices

【Description】
Amazon Kinesis makes it easy to collect, process, and analyze real-time, streaming data so you can get timely insights and react quickly to new information. In this session, we dive deep into best practices for Kinesis Data Streams and Kinesis Data Firehose to get the most performance out of your data streaming applications. Comcast uses Amazon Kinesis Data Streams to build a Streaming Data Platform that centralizes data exchanges. It is foundational to the way our data analysts and data scientists derive real-time insights from the data. In the second part of this talk, Comcast zooms into how to properly scale a Kinesis stream. We first list the factors to consider to avoid scaling issues with standard Kinesis stream consumption, and then we see how the new fan-out feature changes these scaling considerations.

和訳

Amazon Kinesis はリアルタイムのストリーミングデータを簡単に収集、処理、分析できるため、タイムリーな洞察を得て、新しい情報に迅速に対応することができます。このセッションでは、データストリーミングアプリケーションのパフォーマンスを最大限に引き出すために、Kinesis Data Streams と Kinesis Data Firehose のベストプラクティスを深く掘り下げます。Comcast は、Amazon Kinesis Data Streams を使用して、データ交換を集中管理するストリーミングデータプラットフォームを構築しています。データアナリストやデータサイエンティストがデータからリアルタイムの洞察を導く方法の基本です。このセッションの後半では、Comcast は Kinesis ストリームを適切にスケールする方法に焦点を当てます。最初に、標準的な Kinesis ストリーム消費によるスケーリングの問題を避けるために考慮すべき要素を列挙し、新しいファンアウト機能がこうしたスケーリングの考慮事項をどのように変更するかを確認します。

【Speaker】
Damian Wylie - Principal Product Manager
Allan MacInnis - Solutions Architect
Gabriel Commeau - Data Platforms Architect, Comcast

アジェンダ

  • ストリーミングデータについて
  • Amazon Kinesisの紹介
  • デモ
  • 標準的なコンシューマーと拡張ファンアウトコンシューマーの違い
  • Comcastのストリーミングデータプラットフォーム
  • Amazon Kinesis Data Streamsをスタンダードなコンシューマーに拡大するための5つの検討事項
  • 拡張ファンアウトコンシューマーの与えるインパクト

セッション内容

ストリーミングデータについて

素早い決断をするためには数分以内の新しいデータが必要です。
時間の経過とともにデータが価値を失って行きます。

以下は意思決定のためのデータの価値をグラフ化したものです。

数時間以内であればタイムクリティカルな決定と言えますが、従来のバッチは履歴データを処理するため、時間の経過とともに価値を失います。

新しいデータを数秒でストリーム配信する

  • データ生成時にデータを取り込む
  • 実行中のデータを処理する
  • リアルタイムな解析/ML、アラート、アクション

ユースケース

  • スマートホーム、スマートシティ
  • ログ解析
  • 産業自動化
  • データレイク
  • IoTデータの分析

Amazon Kinesisの4つのサービス

デモ

amzn.to/bigdata(実際のデモURL)

A,B,C,Dと4つの象限をもつ座標の上に青い点が表示されます。
それを動かすとどの象限に何人が点を合わせているかがダッシュボードに表示される、という内容のデモでした。
全員が点を動かすと3~4秒ほどでダッシュボードにデータが反映されていました。

標準的なコンシューマーと拡張ファンアウトコンシューマーの違い

Comcastのストリーミングデータプラットフォーム

Amazon Kinesis Data Streamsをスタンダードなコンシューマーに拡大するための5つの検討事項