AWS再入門 Amazon Elastic MapReduce編

AWS再入門アドベントカレンダー

Satoshi Noto

2015.12.08

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

はじめに

当エントリはDevelopers.IOで弊社AWSチームによる2015年アドベントカレンダー『AWS サービス別再入門アドベントカレンダー 2015』の8日目のエントリです。昨日7日目のエントリは大栗の『Amazon RDS』でした。

このアドベントカレンダーの企画は、普段AWSサービスについて最新のネタ・深い/細かいテーマを主に書き連ねてきたメンバーの手によって、今一度初心に返って、基本的な部分を見つめ直してみよう、解説してみようというコンセプトが含まれています。本日8日目のテーマは『Amazon EMR』です。

Amazon Elastic MapReduce（Hadoopクラスター Amazon EMR） | アマゾンウェブサービス（AWS 日本語）

Amazon EMRとは

Amazon Elastic MapReduce (Amazon EMR) は、大量のデータを迅速、容易に、かつコスト効果よく処理するためのウェブサービスです¹。具体的には分散処理基盤であるHadoopクラスタの構築と運用、およびHadoopクラスタ上での分散アプリケーションの実行を行ってくれます。

AWS Black Belt Tech シリーズ 2015 - Amazon Elastic MapReduce from Amazon Web Services Japan

分散処理基盤

EMRはHadoopクラスタの構築と運用を行ってくれます。マネジメントコンソールでHadoopクラスタに利用するEC2インスタンスのノード数とインスタンスタイプを指定すると、10分ほどでHadoopクラスタを構築してくれます。Hadoopクラスタで構成するEC2インスタンスに異常があれば、異常のあったインスタンスは破棄して新規にインスタンスを起動してくれます。

AWS Black Belt Tech シリーズ 2015 - Amazon Elastic MapReduce from Amazon Web Services Japan

分散アプリケーション

Hadoopクラスタ上で分散アプリケーションを実行することができます。例えばSQLライクにログデータの集計などを行いたい場合はApache Hiveを利用することができますし、対話的に処理したいのであればImpalaやPrestoを利用することもできます。機械学習ということであればApache Mahoutを実行することもできますし、汎用的な処理したいのであればApache Sparkを利用することもできます²。

EMRを利用することで前述のような分散アプリケーションを対話的に利用することもできますし、バッチジョブとして実行することもできます。バッチジョブの場合はStepという形でEMRのAPIを利用することでジョブの登録と実行を行うことができるようになっています。

伸縮自在性

EMRで構築したHadoopクラスタは利用するEC2インスタンスの数を実行時に増減可能なため、ジョブに応じてコストの最適化を図ることができます。例えば特定のジョブのみ処理対象となるレコード数が多い場合に一時的にインスタンス数を増やして処理時間を短縮し、後続のジョブではそれ程インスタンス数が不要な場合は減らしてコストの最適化を図ることができます。

安全性

EMRによってHadoopクラスタは専用のSecurity Group内に構築されます。分散アプリケーション上で利用されるデータについてもEMRFSというEMRが提供するファイルシステムを利用することで透過的に暗号化・復号化が実施されます。S3の暗号化と併用することでデータを常に暗号化しながらアプリケーション側では透過的に利用することが可能です。

AWS Black Belt Tech シリーズ 2015 - Amazon Elastic MapReduce from Amazon Web Services Japan

ユースケース

任意の分散アプリケーションを実行できるためユースケースは色々と考えられます。ここでは弊社ブログで紹介したユースケースについてご紹介します。

CloudFrontのアクセスログの集計と分析

CloudFrontのアクセスログを集計・分析したい！ Hiveを利用してCloudFrontのログの集計と分析を行っています。前述のブログではsshでログインしてCLI上でHiveクエリを実行していますが、バッチジョブとして実行することも可能です。なお、Hadoopクラスタの起動をマネジメントコンソールから行っていますが、現在のマネジメントコンソールとは画面デザインが異なるためご注意下さい。

機械学習によるレコメンデーションエンジンの構築

EMR上でMahoutを使ってレコメンデーション Mahoutを利用して映画のレコメンデーションエンジンを作成しています。こちらもsshでログインしてMahoutのジョブを実行しています。なお、Hadoopクラスタの構築はAWS CLIで行っているので、そういう意味でも参考になるかと思います。

EMR上でZeppelinとSparkを使ってレコメンデーションこちらはSparkのMLlibを利用して同じく映画のレコメンデーションエンジンを作成しています。また、Sparkの操作はApache Zeppelin経由で行っており、Zeppelinのりようイメージが分かるかと思います。

さいごに

以上、『AWS サービス別再入門アドベントカレンダー 2015』の8日目のエントリ『Amazon EMR編』でした。 EMRは任意の分散アプリケーションを実行できるという意味で自由度が大きいため他のAWSのサービスと比べると分かりにくいかもしれません。そのため、まずはHiveを利用してSQLで集計ができるというような部分から始めて行くのが分かりやすいのではないかと思います。

明日12/09(水)は森永のAWS Configです。お楽しみに！

公式ドキュメントから引用しています。 ↩
当然MapReduceジョブも実行できますし、PigスクリプトやHBaseも利用できます。 ↩

AWS再入門 Amazon Elastic MapReduce編

はじめに

目次

Amazon EMRとは

分散処理基盤

分散アプリケーション

伸縮自在性

安全性

ユースケース

CloudFrontのアクセスログの集計と分析

機械学習によるレコメンデーションエンジンの構築

あわせて読みたい

さいごに

関連記事

AWSで探す

注目のテーマ

プロダクトやサービスで探す

特集やシリーズから探す

EVENTS