[Apache Spark]Macでの実行環境作成

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

はじめに

大規模なデータをリアルタイムで分析するのフレームワークの一つに、Apache Sparkがあります。色々な特徴があるかと思いますが、 Apache Sparkについての特徴を公式ページより抜粋すると

Apache Spark™ is a fast and general engine for large-scale data processing.

Run programs up to 100x faster than Hadoop MapReduce in memory, or 10x faster on disk.

Write applications quickly in Java, Scala or Python.


とあります。

今回はこのApache SparkをMac上で動かす方法について書きたいと思います。

実行環境作成

では、手順です。先にも書いた通りMacで実行環境を作成し、Hello Worldの代わりにSparkに同封されているREADME.mdの行数をカウントしてみたいと思います。

1.Apache Sparkのダウンロード

Sparkのダウンロードページを開き、いくつかあるドロップダウンリストを以下のように選択します。

  • Chose a Spark release: 1.2.0(Dec 18 2014)
  • Chose a package type: Pre-built for CDH4
  • Chose a download type: Direct Download


選択したら、その下の「Download Spark:」リンクを押下し、ファイルをダウンロードします。

2.インストール

ダウンロードしたファイルを解凍し、任意の場所にフォルダごと移動します。今回は「/usr/local/src」内に移動し、フォルダ名も「spark」としました。以上でインストール自体は完了です。

3.実行してみる

では、実行してみます。sparkのフォルダ内にある「README.md」の行数をカウントしてみます。以下、その手順です。

  1. ターミナルを開き、/usr/local/src/spark へ移動する。
  2. 以下のコマンドを実行する。

    $ bin/spark-shell 
    
  3. 「scala>」と表示されるのを確認したら、以下のScalaのプログラムを入力する。

    sc.textFile("/usr/local/src/spark/README.md").count()
    

    以下のように行数が表示されたら成功です。

    res3: Long = 98
    

まとめ

Mac上で動かすだけなら、非常に簡単にできました。このApache Sparkについて、高速でリアルタイムなデータ分析処理を書き慣れたプログラム言語で記述出来そうなところに私は注目しております。Apache Sparkを初めてみようとしている方などの一助になれば幸いです。