(レポート) BDA303:[新サービス] Amazon Athenaの紹介 -SQLを使用して、S3のデータを簡単に分析する- #reinvent

AWS re:Invent 2016

千葉淳

2016.12.02

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

コンニチハ、千葉です。

ホテルの中庭の噴水を見ながらブログ書いてます

どーん。 IMG_1211 (1)

今回は新サービス、Amazon Athenaに関するセッションレポートです。

Athenaは顧客の課題に挑戦した

S3上のデータを分析する上での大量の作業
ユーザーは、データセットにのみアクスする
Hadoopやデータウェアハウスの専門家が必要

Amazon Athenaの紹介

Amazon Athenaはインタラクティブにクエリをを行うサービス。スタンダードなSQLを使って、S3上のデータを簡単に分析できる。

Amazon Athenaの詳細

Athenaはサーバーレス
- インフラ、管理者が不要
- 起動時間が0
- ユーザーはアップグレードを気にしなくて良い
Athenaは使いやすい
- ログはマネージメントコンソールから見れる
- テーブルの作成は Hive DDL。マネージメントコンソールから追加できる。
- クエリーを開始できる
Athenaは可用性が高い
- マネージメントコンソールからアクセスできる
- マルチAZ
- データを入れるS3は、可用性99.999999999%
S3上のデータにダイレクトでクエリを実行できる
- データのロード不要
- クエリーデータは、Text, CSV, JSON, weblogs, AWS service logに対応
- ETL処理がいらない
- S3へのストリームデータも対応できる
ANSI SQLを使える
Athenaが対応しているデータ・フォーマット
- Text, CSV, raw logs
- Apache web log, TSV file
- JSON
- 圧縮ファイル
- Apache Parquet, Apache ORC
- AVRO - coming soon
Athenaは早い
- パフォーマンスをチューニングしている
- 自動で並列実行する
- 結果は、コンソールにストリームされる
- 結果はS3に保管される
- 圧縮、カラムなフォーマットでクエリーを改善
コスト効率がよい
- クエリに対しての課金
- S3データを１TBスキャンごとに$5
- 失敗したクエリは無料
- 圧縮、カラムナフォマーマット、パーティションニグでコストを下げる
シンプルなパイプライン
- 以前は、S3 > EMR > S3 > Redshift > QuickSight
- Athenaを使いうと、S3 > Athena > QuickSight
チャレンジしたこと
- ETL処理の不要、データのロード不要、ライブデータにクエリ
- どんなデータでもクエリを投げれる
- インフラ管理をしなくてよい
連携
- QuickSightで可視化
- JDBCドライバによりサードパーティ製ツールとの連携

事例

DataXu社では、すでAthenaを利用しており、180TB/日のログデータをAthenaを利用し可視化、レポートを出力しているとのこと。

最後に

インフラ管理不要で、QuickSightで可視化。データはS3上にあり、ストリーミングで入ってきたデータにも対応するということで、まずはログ関係の可視化にすごく寄与するサービスだなと思いました。

(レポート) BDA303:[新サービス] Amazon Athenaの紹介 -SQLを使用して、S3のデータを簡単に分析する- #reinvent

Athenaは顧客の課題に挑戦した

Amazon Athenaの紹介

Amazon Athenaの詳細

事例

最後に

関連記事

AWSで探す

注目のテーマ

プロダクトやサービスで探す

特集やシリーズから探す

EVENTS