『トレジャーデータ、新サービス発表!〜進化したクラウドデータサービス〜』に参加してきた
こちらのイベント、募集サイト公開時は『抽選制』だったのですが、無事に当選し参加の運びに。告知自体も先週後半だったと記憶してましたが、この勢いはさすがというところですね。開催会場は新丸の内ビルディングコンファレンススクエア@東京丸の内。
ちなみにこちらは丸ビル方面からの東京駅。イベントとは直接関係無いですが綺麗だったんで撮っときましたw
クラウド型のビッグデータサービスを提供しているトレジャーデータ社は、新たに提供を開始した新サービスおよび新ソリューション、日本国内およびグローバル市場における最新の事業状況に関して、皆様にご説明させていただきたく、12月9日(月)、午後16時30分(16時開場)から、東京・丸の内の「新丸の内ビルディング コンファレンススクエア」にて説明会を開催させていただく運びとなりました。本説明会には、米国からトレジャーデータ社の共同創業者の一人である、最高技術責任者(CTO)太田一樹が出席します。
このイベントの目玉は、新サービスの内容と併せて何と言ってもCTO自ら発表されるという点。到着時点で会場はほぼ満員、立ち見も出るなどの注目度の高いイベントとなりました。
目次
[第1部]セミナー『進化したトレジャーデータサービス』
- 登壇者:Founder & CTO 太田 一樹氏
『トレジャーデータ、新サービス発表!』と題したタイトルで始められた太田氏の発表セッションがまずはスタート。参加者に対してTreasure Dataを使っている人、Fluentdを使っている・知っている人等のアンケートを冒頭挙手で取っていましたが、Fluentdは特に良く知られたプロダクトという事もあり、非常に多くの方が手を挙げておられました。
会社概要として、2011年12月創業、米国カリフォルニア州シリコンバレー、創業者は日本人であり、現在社員数は30数名である、といった情報紹介の後、まずはTreasure Dataの紹介から始まりました。以下参加メモです。
Treasure Data機能概要や事例等
- ビッグデータの収集、保存、解析を一手で行える。
- サービスのコンセプト:すぐに始められるクラウドサービスとして提供。シンプルな機能セット。お客様も2〜3週間で始められている。
- 海外でも高い評価。
- Hadoopユーザー会が太田氏によって設立されたが、ユーザーの方々が途中でメンテ出来なくて投げ出してしまった…という問題を多く見て来た。それを如何に解決するかが切っ掛けでもあった。
- 投資家も著名家揃い。
- "データ解析の世界をシンプルにする"Treasure Data
- 事業概要:100社以上のお客様/四半期で50%ずつアカウントの伸び/1秒間150000レコードずつ増加/実行した解析ジョブ700万/2兆5000億件お客様からデータを預かっている
- どういうお客様がつかっているのか?
- MobFox:アドエクスチェンジ:Mobfox社|Treasure Data Service導入事例
- GREE:各種ゲームプロダクトのKPI解析
- TOYOTA ITC:「何千万ものユーザーに使ってもらえる。それがITの力」~太田一樹・米Treasure Data CTO:ITpro
- 無印:ウェブサイトの解析
- クックパッド
- Getjar(Androidアプリストア):Treasure Data Service Case Study: Getjar
- 各メディアやアナリストからの評価も◎。データの収集保存解析を一手に引き受けてるのはtreasureadataだけ。
- 保存されているデータ料の伸びも指数関数的に増加。最初の1兆件:1年11ヶ月だったのが、その次の1兆件:3ヶ月、さらにその次:1ヶ月という結果に。
- どういうサービスを提供しているのか?:3つのコンポーネントから把握。
- データ収集:2通りのデータ収集方法
- Treasure Agent:ストリーミングログコレクタ
- Bulk Import:構造化データ、並列バルクアップローダ
- データ保管
- Data Storage:クラウドストレージ 列指向、カラムナストレージ、効率的に圧縮して処理。100社向けにシステムを作っている訳では無く、マルチテナント方式でストレージを構築している。
- データ分析
- BIツールとの接続
- クエリ解析プッシュ
- データ収集:2通りのデータ収集方法
Data Analytics with Treasure Data | Fluentd
- なぜTreasureData?→実装が早く済み、本質的な作業に集中できる。
- 既存の実装プロセスだとデータ収集から解析までは半年〜1年、5-10億円掛かるところが、Treasure Dataだと2〜3週間で済む。
- 月額課金制での支払いなので明日から始められる。
- 既存のBI/Reportingが利用可能。
他社サービス、製品との位置付け:左下と右上の部分は補完関係と成り得る。
クラウド・セキュリティ | セキュリティ/法律上、データを上げられない事が多い | Treasure Dataはこの位置! DMP/レポーティング 分析/センサーデータ |
自社 | Oracle IBM Teradata等 |
自社データセンターで保存解析するにはコストや人材面でマッチしない |
構造化データソース (取引履歴/会計/個人情報) |
非構造化 新しいデータソース |
- MobFoxの事例:
- 14日間で月間600億件のインプレッションを裁く
- 約200台のPHPアプリサーバを管理、PHPから排出されるログ管理システムを作っていたが、非常に運用が大変な状態に。
- TDagentをデータセンターにインストール、2行書き換えるだけでTreasure Dataにアップするように対応可能。
- 溜まったデータを1時間毎にサマライズしてMySQLに送るように。それらを用いてダッシュボードに情報表示
- データをアノニマイズして利用、重要な情報のみローカルで管理。
- Vikiの事例:
- Korean Drama, Taiwanese Drama, Anime and Telenovelas free online with subtitles. - Viki
- Viki;最近楽天に買収された、オンラインビデオサービス。
- データ解析用にHadppを持っていたが、どうやってデータを集めていいか分からない。どうやってマネージすれば良いのかわからない。
- Hadoop→PostreSQLがfailしたり、レポートが頻繁な割合でコケるように。
- Treasure Dataを利用し始める:やはりこちらも2〜3週間で構築。
- ログコレクタをherokuにデプロイし、Treasure Dataに全部up。
- PostgrsqlにインポートしてTableauで解析。
- 2014年:新たなデータソースの台頭の集まり
- ログデータ
- センサーデータ(Nike /fitbit):時計から挙がってくるようなもの
- the internet of things(モノのインターネット)を如何に活かすか。今後はこれが重要に。
- 新たなデータソース例:M2Mユースケース
- 車、時計、電柱、実験的なビルでは至るところにITやセンサーを付ける等してデータをパターン化、外れていたらアクションを起こす等。
- サービス技術詳細
- TD agent:ストリーミングでデータをUpする。データをローカルのロギングからtdにupload、お客さんのデータをTdへ運ぶ際に、バケツリレーのようなイメージで移動。
- bulk loader:クラウドに並列でセキュアにアップロード。
- Data Storage:スキーマレスなデータベース、構築時に決める必要がない。→全てのデータをjsonで保存、テーブルに対して型を変えたいとなったときにスキーマを変える必要がない。→データベース側でメンテナンスする必要もない。tdはとにかく全て保存する。→保存されたjsonの上にスキーマを設定することも可能。3割以上高速化出来る。
- ビッグデータ活用 7つのイメージ。実際は下(定型レポート)から積み上げていって、組織をデータに慣らしていくイメージ。上からは厳しい。100社のうち大半が定型レポートから始めている。可視化することから始めている。
- データ解析
- 最適化
- 予測分析
- 統計分析
- レポーティング
- アラート
- ドリルダウン
- アドホックレポート
- 定型レポート
- データ解析
新機能について
新機能について数点発表がありました。
発表1.Treasure Query Accelerator
- アドホックデータ型解析向けのクエリエンジン
- 既存バッチ型クエリと比較し、10ばいから50ばい程度高速化
- 目的に応じて従来のものと使い分ける事も出来る。
発表2:Treasure Viewer
- データ可視化ツールをデフォルトで提供。
- TQAを利用し、大量のデータからドラッグ&ドロップでデータの可視化が行える。
- 簡易な可視化ツールの扱い。高度なものが求められる場合はパートナーのBIツールを使用してお客様の要件を満たす場合が多い。
ソリューションテンプレートの提供
各業界のニーズに沿って初期セットアップを支援するパッケージを提供。
- マーケティング向け
- レポーティングの部分は結構人手でやっている事が多く、Adobe SiteCatalystからデータを引っ張ってきてる事も多い。そこで、Adobe SiteCatalystからFTPでTreasure Dataへ。
- ゲーム系
- 統合的なデータ解析のプラットフォームにRDBを使っている場合、解析チームは10回位スキーマを変更せざるを得ない。tdを採用頂けるとスキーマレスなので、とにかく好きな形でロギングして共通のKPIをゲーム毎に個別に足していく事が出来る。
まとめ
太田氏の発表の締めは今後の展開等について。
- 既存データソースを使って解析はこれまでやってきた。今後はTreasure Dataでしか解析できない方法、アプリを出して行きたい。
- オープンソース活動:fluentd project:データの解析をシンプルにする→データ収集をシンプルにするために。
- 任天堂でも、『すれちがい通信』にfluentdを利用。:ニンテンドー3DS|社長が訊く「すれちがい通信中継所」|Nintendo
- AWSのホワイトペーパーでも、fluentdの言及アリ。:Amazon EMR のベストプラクティス
- データの収集をやってみて分かった:
- 皆さんNxN通りの活用方法を自前でアドホックに構築してらっしゃる。これを1個で出来ないか?
- 世界で生成されているデータをfluentdで効率的に収集管理出来ないか。
- エンジニアリングチーム:様々なOSSへの活動を行っている。チャットでサポートも。→なぜこういう体制を敷いているか?お客様と直接対話して行動に移す事でPDCAをさらに高速化するために。
セッションの後は幾つかの質疑応答がなされ、一旦休憩を経て次のディスカッションへ。質問した方へFluentdのステッカーがプレゼントされていましたが、この時点で15枚ほど余っていたそうで希望者に配られました。自分もここぞとばかりに頂いてきましたw ありがとうございます!
[第2部]パネルディスカッション『トレジャーデータのお客様とCTO太田によるビッグデータの未来』
- モデレーター:Founder & CTO 太田 一樹氏
後半パネルディスカッションは、サイバー・コミュニケーションズ社の宮市様(ミヤイチ様?この漢字で宜しいのでしょうか。口頭での名前発表を聞き取った形となりましたので、もし間違っているようであればご指摘願えますと幸いです。)をお招きしての対談となりました。広告制作に関するご提案を行っており、ビッグデータの領域では、ユーザのアトリビュート分析が大きなテーマとなっているそうです。
このパートについては、対談内容をざっと並べた形で。基本的に質問されていたのが太田氏、回答されていたのが宮市様という構図でした。
- 昔はWeb広告が出る→クリック、成果→終了だった。これでは効果を追いかけ切れない、となり、データを蓄積するように。クリックするまで何回見たか。というようなものはカバーしきれない部分が多い。そして調べれば調べるほど、ユーザーの状況がわかってくる。
- 分かってくるが、しかし制限も多い。ノイズとリアルなデータの差が大きく、成果が合ったデータのみ分析するのと、見た(けどクリックしてない)データを含めるのとでは開きが出てくる。
- データは多くなるが、ツールの制限により人のケイパビリティが制限されるケースも。Power Pivo等は5000万件が限界。全部のデータを使うか、絞るか、出来る範囲で行うか等で対応する必要が出てくる。またはデータの外部業者に委託して加工してもらう、等。そういう流れの中で、どんどん制約された状態の中でしか動く事が出来ていなかった。
- RTB業者:5000倍:1インプレッションで5万倍の規模に、当然、データも自社で保存出来ない規模に。広告業界はデータが多く分析対象も多いがツールが追いついていない。
- 日本のRTB市場:300億のインプレッション。Hadoop/Hiveにチャレンジ、自作するなどしてみるも限界アリ。Hive:ちょっと立ち上げる程度なら良いが、300億を対象に継続運用しようとなると手間も掛かり、本末転倒に。本来であれば分析した結果を使いたいのに…
- ツールとやりたい事のギャップがある。まだ、excelで使えるユーザーとのギャップはあると思っている。両親等が何百億のデータを扱える状況を目指したいが、課題やハードルは何かありますでしょうか?
- おじいちゃんおばあちゃんの前に、まずは、"データを取り扱える人々"が実は居るんです。つまり、データサイエンティスト(だったらしい)という人は実は昔からいっぱいいる。その人達に、データをどうやって繋いであげるか。それが大事。それがありさえすればもっと活用される状況も生まれてくるのでは。
- インタフェースの問題でしょうか?接続性?または、Treasure Dataというブランドがまだ認知されていない?POS分析してるひとなんて沢山いるのに...
- 足りてないところ、わからないところ...ETLはポイントだと思っています。ETLで加工をどうやって分かり易い形で提供していけるか。有限時間内で解決出来るような。Pentahoのようにロジックを絵で書けるようなものも有意。ETLを実際動かす際も、SQLや中間テーブルなどの処理に時間が掛かり、終わる時間も望むとおりに行かないかも知れない。PCの中で実験した内容を実行出来る、というのがあるのは良いかも。
- 導入するのに時間がかかったのはどこですか?
- TreasureDataを如何に採用させるか、というところでした。ポイントとしては、やる気と予算とクレジットカードだったと思っています(笑) Treasure Dataの無料試用版で、こんなに出来るんだよ、というのを見せました。その中で、楽さ、速さをはサポートとのやりとりで実感した。トライアルは大事ですね。フリーアカウントを如何に充実させるのか、というのは大事だと思います。
- 広告お客様とお話して、Excelで力技を使っている局面を見て来ましたた。それは変えられないのでしょうか?
- Aインターネット広告人が生まれた時に、、、、なんかネアンデルタール人みたいですね(笑)、その時には、共にログがありました。最初から何インプレッションして何クリックした、という状況がその時点からあったんですね。そこからExcelへとつながっていった。Excelは何でもできちゃう。
- また、ビジュアライゼーションも大切です。ダッシュボードみたいなのは山のように作ったけど『汎用』的なものは出来ない。一生懸命考えて使っても、そのタイミングでし使うことは出来ない。そういう意味では、Tableau見たいなアプローチは良いと思います。
- でも...最終的にはパワポなのかもしれない?
- BIツールは、出したいデータを知っている人じゃないと、分からないという側面があると思うし、実際出せない。そういう人達が出来る事を増やしてあげるだけで、実は良いのではないか。TreasureDataさんがどこに向かうか分からないが、技術で使えるというよりも、分析して何かに使いたいと思っている専門家が使える、というところを目指すと良いのでは。そこから世界が代わり、皆がデータサイエンティスト、みたいなところへ行けるのでは。
- 隠れデータサイエンティスト、どこに居るんでしょうかね?
- 昔、Excelで全てを理解した人達がいた。数字を読む力を持つ人。そういう人達が段々年を取ってしまっている。そこにリーチしていくだけで十分なのでは、とも思う。BIでは、ファクトではなく、次にチャンレンジするためのデータが欲しい。そういうのをやっている人達もいないし、技術じゃない方向で伸ばす、広げていく。マーケターを集めてBIツールをトライアルさせてみる、というのも面白いかもしれない。
といったところでタイムアップ。非常に濃いセッションであり、ディスカッションでした!
まとめ
TreasureData及び新サービスの内容に関しても興味があったのは勿論でしたが、後半のディスカッションでもBIに纏わる色々なご意見を聞くことが出来たのは大きな収穫だったと思います。Tableauも所々で名前が挙がっており、やはりリーチしやすさ、扱い易さ選ばれているのだろうなぁというのはひしひしと感じました。そしてBIやETLの環境を整える上で悩みの種でもあろう環境構築の手間についても、Treasure Dataであればオールインワンで済むというのも嬉しいところです。
イベントでは、Tシャツも無料配布されていました。『T』のロゴが良い感じ♪
参加者も100人〜150人は居たでしょうか。超満員で内容も非常に濃く、有意義な時間を過ごせました。関係者の皆様、ありがとうございました!