Javaで作成したMapReduce処理をEMRで動かす

2017.01.23

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

はじめに

Javaで作成したMapReduceの処理をEMRで動かしてみました。その手順について簡単ですが纏めてみたいと思います。

弊社小澤がHadoop MapReduce入門 | Hadoop Advent Calendar 2016 #01で書いた処理をそのまま使用します。この記事を参考に、動作するJarを作成しておいてください。

ではEMRでの実行についてです。手順としては

となります。

先に作成したJarをS3の任意のバケットに格納して置いて下さい。この手順については省略します。

次にEMRのクラスターを起動します。手順についてはEMRでクラスターを起動してHiveスクリプトを実行する内の記述を参考にしてください。

クラスターが立ち上がったら、ステップを追加します。このステップで、MapReduce処理を実装したJarを指定します。

マネジメントコンソールのクラスター画面にて「ステップの追加」ボタンを押下します。 java-mapreduce-on-emr-1

「ステップの追加」ダイアログが表示されるので、以下の値を入力します。

java-mapreduce-on-emr-2

最後に「追加」ボタンを押下します。引数で指定した出力先に結果が配置されるはずです。

参考にした小澤の記事と合わせ、ローカルでMapReduce処理を実装してEMR上で実行することができました。これを機にいろいろとEMRを試してみようと思います。