[Apache Spark]Macでの実行環境作成

2015.01.27

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

はじめに

大規模なデータをリアルタイムで分析するのフレームワークの一つに、Apache Sparkがあります。色々な特徴があるかと思いますが、 Apache Sparkについての特徴を公式ページより抜粋すると

Apache Spark™ is a fast and general engine for large-scale data processing.

Run programs up to 100x faster than Hadoop MapReduce in memory, or 10x faster on disk.

Write applications quickly in Java, Scala or Python.

とあります。

今回はこのApache SparkをMac上で動かす方法について書きたいと思います。

では、手順です。先にも書いた通りMacで実行環境を作成し、Hello Worldの代わりにSparkに同封されているREADME.mdの行数をカウントしてみたいと思います。

Sparkのダウンロードページを開き、いくつかあるドロップダウンリストを以下のように選択します。

選択したら、その下の「Download Spark:」リンクを押下し、ファイルをダウンロードします。

ダウンロードしたファイルを解凍し、任意の場所にフォルダごと移動します。今回は「/usr/local/src」内に移動し、フォルダ名も「spark」としました。以上でインストール自体は完了です。

では、実行してみます。sparkのフォルダ内にある「README.md」の行数をカウントしてみます。以下、その手順です。

Mac上で動かすだけなら、非常に簡単にできました。このApache Sparkについて、高速でリアルタイムなデータ分析処理を書き慣れたプログラム言語で記述出来そうなところに私は注目しております。Apache Sparkを初めてみようとしている方などの一助になれば幸いです。