【祝】Amazon Athena が東京リージョンにやってきました

eyecatch-athena
111件のシェア(ちょっぴり話題の記事)

おはようございます。藤本です。

本日、うれしいアップデートがありました。ついに Amazon Athena が東京リージョンにやってきました。東京リージョンリリースを待っていた方も多いのではないでしょうか?

Amazon Athena is now available in Asia Pacific (Singapore) and Asia Pacific (Tokyo)

Amazon Athena

Amazon Athena は S3 にある CSV、JSONなどのテキストファイルから SQL によってデータの抽出や集計を行えるサービスです。弊社ブログでも色々なことを試していますので是非ご覧ください。

東京リージョンにやってきたことで何が嬉しい?

今までは US、ヨーロッパの 4リージョンでサービス提供されていました。Amazon Athena は別リージョンの S3 データを扱うことができたので、別リージョンの S3 に対してもクエリを行うことはできました。
ただし、S3 のリージョン間データ転送料とその転送による処理時間がかかっていました。

費用(S3 のリージョン間データ転送料)に関しては S3 の料金ドキュメントをご参照ください。安価で大容量データのクエリができることも売りの一つの Amazon Athena の利用料金よりも S3 のデータ転送量の方が高くなっていました。

https://aws.amazon.com/jp/s3/pricing/

処理時間は試してみましょう。

処理時間を比較してみた

サンプルで定義されている東京リージョンの S3 に配置されている ELB のログデータを使って、東京リージョンの Athena、バージニアリージョンの Athena とでクエリの実行時間を比較してみました。一つの比較結果として参考にいただければと思います。

サンプルデータ

135万件のログデータをテストデータとして扱います。(Athena のサンプルデータとしては少ない気もしますが、、、)

Athena 4

データサイズは 387.7 MiB です。

$ aws s3 ls s3://athena-examples-ap-northeast-1/elb/plaintext/  --recursive --human --sum
2017-05-08 13:10:53   11.2 MiB elb/plaintext/2015/01/01/part-r-00000-ce65fca5-d6c6-40e6-b1f9-190cc4f93814.txt
2017-05-08 13:10:53    8.4 MiB elb/plaintext/2015/01/01/part-r-00001-ce65fca5-d6c6-40e6-b1f9-190cc4f93814.txt
<snip>

Total Objects: 51
   Total Size: 387.7 MiB

バージニアリージョンの Athena からクエリする

全件クエリを 3回実行しました。

結果は 23.07秒、23.62秒、21.63秒

Athena_15

東京リージョンの Athena からクエリする

同じく、全件クエリを 3回実行しました。

結果は 17.93秒、17.97秒、17.55秒

Athena_14

もう少し結果にバラつきが出るかと思っていましたが、安定して S3 と同一リージョンの方が 5〜6秒ほど早いですね。

まとめ

待ちに待った Amazon Athena が来ました。東京リージョンの S3 にあるデータがガンガンクエリして、分析しちゃいましょう。