2016年のHadoop活用事例紹介 | Hadoop Advent Calendar 2016 #24

こんにちは、小澤です。 この記事はHadoop Advent Calendar 24日目のものとなります。

前回はHueについて書かせていただきました。
今回は2016年にHadoop系のカンファレンスでの発表タイトルなどから、主に国内での実際の活用事例を紹介したいと思います。

Hadoopは「概要やどんなことができるかはある程度わかったけど、それをどう活用していいかイメージがつかない」という話もよく聞く領域なので、ご参考にしていただければと思います。

紹介

リクルート

まずはリクルートさんの事例になります。Hadoop活用に関する発表は以前から頻繁に行っている会社です。 貼らせていただいた資料はHadoop Summit 2016 Tokyoでのものになります。

NEC

NECさんの事例はOLAPでHadoopを使おうとしている非常にチャレンジングなものになっています。 貼らせていただいたHadoop/Spark Conference Japan 2016とHadoop Summit 2016 Tokyoで発表されており、かなりのところまでできあがっているようです。

SEGA

SEGAさんでは、モバイルゲームのユーザ分析にSparkと機械学習を活用しているようです。 こちらもHadoop Summit 2016 Tokyoでのスライドを貼らせていただきました。

富士通

同じくHadoop Summit 2016 Tokyoで話されていたものとなります。
研究所の方の発表というとこでアカデミック寄りの内容となりますが、富士通さんでは機械学習を行う際に様々な手法のパラメータチューニングにSparkを活用して並列で処理しているとことでした。
さらに興味深いのが、パラメータチューニングだけでなく、データ量を増やしていったときにどのくらい精度向上が見込めるかも予測していることです。 機械学習ではデータの量が多くなるほど学習に時間がかかるようになるため、最初は小規模なサンプリングデータなどからはじめ、その段階ではいい結果が出ているものでも、データの規模を大きくしてもそれほど精度向上が見込めなさそうなものは早い段階で切り捨てて、実践的なデータ量で最も精度のよくなる手法を素早く見つけることを可能にしたということでした。

DMM

DMMさんのレコメンドシステムの話になります。 こちらは『夏真っ盛り!Spark + Python + Data Science祭り』で発表された資料になっています。

もう1つこちらは画像認識+レコメンドの話となります。 資料がPDFのものしか見つからなかったのでそちらへのリンクを貼らせていだたきました。 こちらはCloudera World Tokyo 2016での資料となります。

Deep Learningを用いた 類似画像レコメンドの SQL on Hadoopによる実現

Cyber Agent

Cyeber AgentさんのレコメンドでSparkを利用している話になります。 こちらも『夏真っ盛り!Spark + Python + Data Science祭り』で発表された資料になっています。

さくらインターネット

Hadoop/Spark Conference Japan 2016の基調講演にて発表されたものとなります。 こちらの資料が公開されていないようですが、publickeyに記事が掲載されていましたのでそちらのリンクを掲載させていただきます。

さくらインターネットが構築した、データセンターの要素すべてを対象とした精緻な原価計算システムの仕組みとその背景

タイトルにある通り原価計算において、Excelを利用していたものをSparkで置き換え、より細かく計算できるようになったという話となります。

ドワンゴ

ドワンゴさんでのETL処理への活用事例となります。全体としてどのような仕組みを作っていくのとうまくいくかという話になっています。 掲載させていただいた資料はHadoop/Spark Conference Japan 2016でのものとなります。

ヤフー

こちらのヤフーさんの資料は活用事例というよりは大規模なクラスタだからこその苦労話が満載です。 活用事例という部分に関しては2ページ目に『広告用クラスタ』という記載があり、Web広告というとてつもなくデータの多い領域で活用されているようです。

データ分析をする際に参考になる資料

Hadoopとデータ分析の話は切っても切れない関係にあります。
そこで、直接Hadoopの話ではないものの、データ分析に関わる際に参考になる資料を掲載したいと思います。 以下2つはいずれもCloudera World Tokyo 2016で発表されたものになります。

終わりに

以上で本日の内容は終わりとなります。
ここで挙げたような事例を参考にHadoopやデータの活用により一層繋がっていけばと思います。

明日は最終日ということで、これまでに挙げられなかった話題として他にどのようなものがあるかの紹介をさせていただく予定です。 
ぜひ、お楽しみに!