(レポート) BDA303:[新サービス] Amazon Athenaの紹介 -SQLを使用して、S3のデータを簡単に分析する- #reinvent
コンニチハ、千葉です。
ホテルの中庭の噴水を見ながらブログ書いてます
どーん。
今回は新サービス、Amazon Athenaに関するセッションレポートです。
Athenaは顧客の課題に挑戦した
- S3上のデータを分析する上での大量の作業
- ユーザーは、データセットにのみアクスする
- Hadoopやデータウェアハウスの専門家が必要
Amazon Athenaの紹介
Amazon Athenaはインタラクティブにクエリをを行うサービス。 スタンダードなSQLを使って、S3上のデータを簡単に分析できる。
Amazon Athenaの詳細
- Athenaはサーバーレス
- インフラ、管理者が不要
- 起動時間が0
- ユーザーはアップグレードを気にしなくて良い
- Athenaは使いやすい
- ログはマネージメントコンソールから見れる
- テーブルの作成は Hive DDL。マネージメントコンソールから追加できる。
- クエリーを開始できる
- Athenaは可用性が高い
- マネージメントコンソールからアクセスできる
- マルチAZ
- データを入れるS3は、可用性99.999999999%
- S3上のデータにダイレクトでクエリを実行できる
- データのロード不要
- クエリーデータは、Text, CSV, JSON, weblogs, AWS service logに対応
- ETL処理がいらない
- S3へのストリームデータも対応できる
- ANSI SQLを使える
- Athenaが対応しているデータ・フォーマット
- Text, CSV, raw logs
- Apache web log, TSV file
- JSON
- 圧縮ファイル
- Apache Parquet, Apache ORC
- AVRO - coming soon
- Athenaは早い
- パフォーマンスをチューニングしている
- 自動で並列実行する
- 結果は、コンソールにストリームされる
- 結果はS3に保管される
- 圧縮、カラムなフォーマットでクエリーを改善
- コスト効率がよい
- クエリに対しての課金
- S3データを1TBスキャンごとに$5
- 失敗したクエリは無料
- 圧縮、カラムナフォマーマット、パーティションニグでコストを下げる
- シンプルなパイプライン
- 以前は、S3 > EMR > S3 > Redshift > QuickSight
- Athenaを使いうと、S3 > Athena > QuickSight
- チャレンジしたこと
- ETL処理の不要、データのロード不要、ライブデータにクエリ
- どんなデータでもクエリを投げれる
- インフラ管理をしなくてよい
- 連携
- QuickSightで可視化
- JDBCドライバによりサードパーティ製ツールとの連携
事例
DataXu社では、すでAthenaを利用しており、180TB/日のログデータをAthenaを利用し可視化、レポートを出力しているとのこと。
最後に
インフラ管理不要で、QuickSightで可視化。データはS3上にあり、ストリーミングで入ってきたデータにも対応するということで、まずはログ関係の可視化にすごく寄与するサービスだなと思いました。