Hadoop Summit 2016 Tokyo参加レポート

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんにちは、小澤です。 今回は10月26, 27日に行われたHadoop Summit 2016 Tokyoの参加レポートを書かせていただきます。

hadoop_summit

参加セッション

1日目

2日目

個々のセッションの内容については後日AGENDAページにスライドやビデオがアップロードされると思いますので詳細については立ち入らずいくつかの概要をピックアップしたのち、全体的な動向に対する感想を書かせていただこうかと思います。

興味深かったもののピックアップ

Moving towards enterprise ready Hadoop clusters on the cloud

クラウド環境でのHadoopのあり方を考える上で興味深い内容でした。 AWS上でS3を共通のData Lakeとして複数のコンピューティング環境を立ち上げるためのData Flowの紹介という側面が強かったように思えます。 しかし、「Hadoopといえば大規模なオンプレ環境を構築するもの」という考え方からクラウドの活用への時代の変遷を見据えた内容になっていました。 また、HDFSではなくS3などのオブジェクトストレージにデータを保存することで得られるメリット・デメリットの話は多くの方にとって気になる部分だと思うので公開された資料をみるだけでも参考になることかと思います。

Business Innovation cases driven by AI and BigData technologies

2部構成になっており、後半の話が非常に興味深く聞かせてもらった内容となります。 機械学習を行う際に利用するアルゴリズムの選定やパラメータのチューニングに対して、データ量が増えた時のLearning Curveの伸びまで考慮した自動チューニングの話となっておりました。 やってみるまで上手くいくかわからないことも多いデータ分析でサイクルを早く回すためのアプローチとしてとても興味深い内容でした。

A Container-based Sizing Framework for Apache Hadoop/Spark Clusters

こちらはプライベートクラウドにおけるHadoop/Sparkクラスタ立ち上げの際のリソース割り当てに対するトピック。 コストとパフォーマンスというトレードオフの関係にある2点でどのようにバランスをとったコンピューティング環境を提供するのが適切なのかという話でした。 遺伝的アルゴリズムを使った手法となっており、ある程度の前提知識がないと内容を理解するのは難しいかもしれませんがパブリック・プライベート問わずコンピューティング環境としてクラウドの利用を前提とした場合重要な課題となるであろう部分へのアプローチとなっているように思います。

LLAP: Sub-Second Analytical Queries in Hive

最後のこちらは個人的にも関わりの深いHiveのLLAPのトピックとなります。 Hadoopはパッチ処理のため速度面では期待できないという印象をお持ちのかたも多いかと思いますが、アドホックな分析やOLAPのような用途でもHiveを利用可能にしようというのが主なコンセプトとなっています。 基本的な機能に関してはこれまで変わらずではあるが、今回のひとつの大きなトピックとしてSparkからの利用があげられるかと思います。 インプットにLLAPが利用でき、その後は従来通りSparkのData Frameとして利用できるという内容でした。 これによる利点としてテーブルのカラムレベルでのアクセスコントロールがしやすくなるという点があげられていました。 また、明確に話しておりませんでしたがLLAPのキャッシュが利用することで入力時からすでにインメモリが実現できるのは一つ大きいと思います。

感想

今回ホットなトピックであったと感じられたものに、 Spark MLlibやApache Zeppelinをデータサイエンスに利用したもの、クラウド上でHadoopを動かす話の2点がったように思います。 活用事例などをみていてもHadoopだけでなくSparkでさえ、もうすっかり「これから検証する技術」ではなく「すでに活用している技術」の傾向が強まっているように感じます。 今後この2つの流れはさらに加速していくかと予想しています。

また、現在alpha版が出ているHadoop3.0ですが、こちらはより大規模なクラスタを想定しての新機能が多ように思います。 Erasure codingやTimeline Service v.2など、大きなトピックとなる部分が、大規模な環境で特にボトルネックになる部分への対策になっているのが伺えるかと思います。

最後に、リアルタイム処理系の話は今回はあまり聴講していませんでしが、こちらもセッション数が多くホットなトピックの1つと言えるのかもしれません。