[EMR小ネタ] ディスクサイズにご用心

じょんすみす

2017.04.03

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんにちは、小澤です。

今回は、EMRを利用する際にちょっと気をつけておいたほうがいい小ネタを紹介します。

EMRでのディスクサイズ

EMRを利用するときは多くの場合、S3などを入出力先として利用するかと思います。そのため、主にHDFSとして利用されるインスタンスのディスクサイズってそれほど関係ないんじゃないの？と思われる方も多いかと思います。

しかし、実はHadoopでは、必ずしも入力と出力意外に何も生成しないかというとその限りではありません。いくつか例を挙げると

Hadoopのログ出力
Mapperの中間出力
Hiveのscratchdir
Sparkのキャッシュ

などが考えられます。これらはHDFSや各ノードのローカルディスクに保存されることになります。

平均的なディスク使用率としてみたときはたいしたことないけど、ジョブ実行中などで一時的に上がるという状態は考慮しておいたほうがいいでしょう。そのため、基本的にHDFSは利用しないという前提であってもある程度のサイズは考慮しておいたほうがいいということになります。

ストレージがEBSのみのインスタンス

さて、ここのとき注意が必要なのはストレージタイプがEBSのみのインスタンスを使う場合です。インスタンスストレージを利用する場合は他のスペック比較してディスクサイズのみが極端に小さいという状況はなかなか起こらないため、処理すべきデータ量と相談した上で適切なインスタンスタイプを選択している限りはディスクのみが問題になるということはあまりないかと思います。

一方でEBSを利用する場合、そのサイズも指定可能になっています。 2017/04/03現在、デフォルト値では32GBとなっています。

スクリーンショット 2017-04-03 13.43.03