(レポート) BDA303:[新サービス] Amazon Athenaの紹介 -SQLを使用して、S3のデータを簡単に分析する- #reinvent

reinvent2016_eyecatch

コンニチハ、千葉です。

ホテルの中庭の噴水を見ながらブログ書いてます

どーん。 IMG_1211 (1)

今回は新サービス、Amazon Athenaに関するセッションレポートです。

Athenaは顧客の課題に挑戦した

  • S3上のデータを分析する上での大量の作業
  • ユーザーは、データセットにのみアクスする
  • Hadoopやデータウェアハウスの専門家が必要

Amazon Athenaの紹介

Amazon Athenaはインタラクティブにクエリをを行うサービス。 スタンダードなSQLを使って、S3上のデータを簡単に分析できる。

Amazon Athenaの詳細

  • Athenaはサーバーレス
    • インフラ、管理者が不要
    • 起動時間が0
    • ユーザーはアップグレードを気にしなくて良い
  • Athenaは使いやすい
    • ログはマネージメントコンソールから見れる
    • テーブルの作成は Hive DDL。マネージメントコンソールから追加できる。
    • クエリーを開始できる
  • Athenaは可用性が高い
    • マネージメントコンソールからアクセスできる
    • マルチAZ
    • データを入れるS3は、可用性99.999999999%
  • S3上のデータにダイレクトでクエリを実行できる
    • データのロード不要
    • クエリーデータは、Text, CSV, JSON, weblogs, AWS service logに対応
    • ETL処理がいらない
    • S3へのストリームデータも対応できる
  • ANSI SQLを使える
  • Athenaが対応しているデータ・フォーマット
    • Text, CSV, raw logs
    • Apache web log, TSV file
    • JSON
    • 圧縮ファイル
    • Apache Parquet, Apache ORC
    • AVRO - coming soon
  • Athenaは早い
    • パフォーマンスをチューニングしている
    • 自動で並列実行する
    • 結果は、コンソールにストリームされる
    • 結果はS3に保管される
    • 圧縮、カラムなフォーマットでクエリーを改善
  • コスト効率がよい
    • クエリに対しての課金
    • S3データを1TBスキャンごとに$5
    • 失敗したクエリは無料
    • 圧縮、カラムナフォマーマット、パーティションニグでコストを下げる
  • シンプルなパイプライン
    • 以前は、S3 > EMR > S3 > Redshift > QuickSight
    • Athenaを使いうと、S3 > Athena > QuickSight
  • チャレンジしたこと
    • ETL処理の不要、データのロード不要、ライブデータにクエリ
    • どんなデータでもクエリを投げれる
    • インフラ管理をしなくてよい
  • 連携
    • QuickSightで可視化
    • JDBCドライバによりサードパーティ製ツールとの連携

事例

IMG_1168

DataXu社では、すでAthenaを利用しており、180TB/日のログデータをAthenaを利用し可視化、レポートを出力しているとのこと。

最後に

インフラ管理不要で、QuickSightで可視化。データはS3上にあり、ストリーミングで入ってきたデータにも対応するということで、まずはログ関係の可視化にすごく寄与するサービスだなと思いました。