DataikuをAWS Marketplaceを利用して簡単に構築してみた
大阪オフィスの玉井です。
今回は、前から気になっていたDataikuを触ってみたいと思います。
Dataikuとは
データサイエンスプラットフォーム
データ分析に関わる人のためが共同で使うためのデータサイエンスプラットフォーム…という位置づけのサービスでしょうか。
データ分析プロジェクト(特に機械学習を使う場合)は、データサイエンスを実行するツールや、その他手動で行う作業が氾濫しがちです。それらをキッチリ管理していかないと、プロジェクトは上手く回らなくなってしまうのですが、実際これらをキッチリ管理していくのは、なかなか難しいところです。
Dataiku(Data Science Studio)はデータとのやり取りを1つにまとめており、複雑なデータサイエンスを短時間で実行することができます。また、データの前処理から機械学習モデルの開発まで、あらゆる面でユーザーを支援する機能を備えています。
要するに、この一つのサービス上で、データ分析に関わる全ての人が、データ分析(特に機械学習)で行うタスクを楽に行える…という感じでしょうか。
何て読むの?
ダタイクです。
*hint: DAH-TAH-eeee-QUE
そもそも名前の由来が「データ」+「俳句」だそうで、それを合体して呼んだ感じが「ダタイク」になる…らしいです。
やってみた
EC2インスタンスを作成する
AWSマネジメントコンソールにログインし、EC2を新規作成します。その際、マーケットプレイスを選び、Dataikuが既にインストールされているものを選びます。
残りの設定はほぼ何も変えずにインスタンス起動まで行っちゃいます。ちなみに、インスタンスタイプは(使い始めの段階では)m系のlargeで十分だと公式ドキュメント(当エントリ下記を参照)にあります。ということで、今回はm5.largeにしました。
Webブラウザからアクセスする
上記の設定が完了したら、Webブラウザからアクセスしてみましょう。
インスタンスにIPアドレスなりドメインなりを設定し、ブラウザからアクセスします。アクセス時、インスタンスID(今回立ち上げたインスタンス)を聞かれますので、先にメモっておきましょう。パスワード欄は空白で問題ありません。
すると、Dataikuの画面が表示されます。
ちなみに、インスタンス自体のセットアップは完了しても、まだ中でDataikuのセットアップは終わっていない場合がありますので、アクセスしてもつながらないという場合はもう少し待ちましょう。
また、推奨ブラウザはChromeとFirefoxの2つとなっています。
セットアップを進める
Dataikuにアクセスできたら、セットアップを進めていきます。
Welcome to Dataiku DSS
ライセンスファイルはあるか?と聞かれますが、もちろんそんなものは知らないのでNOを選びます。
Select your license
ライセンスに関する事項(自分の名前とか)を入力します。
今回はフリーエディションを選びます。エディションの違いは下記をご覧ください。
Thank you!
なんと、設定はこれでほとんど終わりです。Dataikuへアクセスするための初期アカウントらしきものが発行されたので、それでアクセスしてみます。
完了
先程の画面から進み、初期アカウントでログインします。
無事、Dataikuのトップ画面にたどり着くことができました。
おわりに
AWSのマーケットプレイスを使うことで、爆速でDataikuを構築できました。今回はDataikuを構築して満足しましたが、実際にDataikuを使うところもエントリとして投下していきたい所存であります。