アイカツ!の再生回数取得のデータレイク基盤を半年運用して気づいたこと

2020.11.13

データアナリティクス事業本部@札幌の佐藤です。

以前、アイカツ!シリーズのYouTubeチャンネルの再生回数を取得する基盤を構築しました。

10時間くらいでYouTubeチャンネルの再生回数を取得するサーバレスな構築を作ってみた

この基盤は現在も運用中の状態ではありますが約半年が経過したので個人で振り返りを行い、いくつかの課題がありました。

今回はその課題について書きたいと思います。

データレイク基盤を構築する価値

データレイク基盤をなぜ構築するのでしょうか。

単純にデータを蓄積するだけを目的にしている場合、それはただ机の上に大量の資料を重ねているだけの状態であるかと思います。
そのデータは何らかの目標を達成するための意思決定(データから何らかの気づきを得る)ために使用しなければただのログデータです。

データレイク基盤はその意思決定をしたい場合に即座にデータを見ることができる仕組みでしかないです。
つまり、データレイク基盤はそれ単体では何の意味がなく、何をやりたいかということが重要になります。

何をやりたいのかはっきりしない状態でのデータレイク基盤構築は、最終的に使われなくなります。


今回の振り返りではそのうえで、「途中で意思決定したいもの(気づきを得たいもの)を失ってしまう状態」に陥るという問題があることがわかりました。

具体的な状況

今回は以下のような私の想定とは異なる状況になりはじめたのが起因です。

  • Webアニメ『アイカツオンパレード! ドリームストーリー』が私が想定していたよりも早く終わってしまったこと(2020年7月11日)。
  • 次作品である『アイカツプラネット!』の放送開始(2021年1月10日)が私が想定より後であったこと。
  • 作品間の空白期間が長いこと

現在は過去のシリーズを配信していたり、『アイカツプラネット!』女優の方の動画がアップロードされている状態です。

構築したときに中長期的な観点で考えられていなかったのも要因の一つではありますが、想定と異なる状態である状態になった場合に何を意思決定したいもの(気づきを得たいもの)の再検討が必要でした。
それが十分に行われていなかったために、結果的に上記に書いたデータが蓄積されているだけの状態に陥っていました。

構築してみての気づき

外的要因によって当初のデータレイク基盤の方針が変わってしまう場合が存在することです。

今まで業務上でデータレイク基盤を構築する際にはこのような運用途中で定期的な分析が実施できなくなるケースに遭遇したことがありませんでした。
今回遭遇して考えたことは基盤自体の存続するかどうかでした。

最終的に私は『アイカツプラネット!』に向けて機能は維持することにしました。
放送開始までに手動で実施しているようなか所の自動化を進めていく、実写ドラマ化の話題性で検索も増えると見込みGoogle Trendsを集計するようにするにし、昨日の拡充を今後の目標としています。
これは個人で実施しているためにできる采配ではあります。

意思決定したいものが大きく変更されたときには、データレイク基盤を構築する価値が揺らいでいる状態だと思います。
既存データを使用してできることがあるのか、別のシステムから連携することで達成できないかと検討し、最終的にはデータレイク基盤を維持するか否かを検討すべきかと思います。

分析結果があまり大きく変わらない

データレイク基盤を使用して分析を行う場合、私は以下のような流れを意識します。

個人で実施しているというのもありますが、私の分析は私が楽しめるというのが主目的であるため、処理結果の洞察の際にどうしてもデータ分析しても結果が想像どおり、またはデータから得られる知見がない場合に価値が薄いと思ってしまいます。

この価値が薄いと思ってしまうのはなぜかと考えたときに、「仮説検証準備」と「フィードバック」において不足があるかと考えました。

仮説検証準備の不足

要件(何を意思決定したいのか)に対し、どのようなデータを利用すると達成可能であるのかという点の考慮不足になります。

以下のような処理結果を出す前に、仮説検証の準備として中心となるデータに対しどのようにスライスしたりダイジングするかを考えています。、

具体的にはスタースキーマ検討したときに『アイカツオンパレード! ドリームストーリー』の情報を持つ事実表(ファクトテーブル)に対し、どのような次元表(ディメンションテーブル)を結び付けられるのかという観点を考えていきます。

今回はその次元表の情報が不足していることに起因する問題だったのかなと考えています。

私はアイカツ!シリーズにかかわっている人間ではなく、あくまで好きな個人でしかないためデータの収集には限界があり難しい側面もあります。
またむやみに次元表を増やしていくのは、最終的に意思決定したい事項と無関係なものが紐づくので本当に欲しい情報から遠のく可能性もあります。

しかし、ここで過不足なくやりきろうとするのは難度が高すぎる(結果がわからないので)上に、それ起因で頓挫する可能性があるため不足してしまうのは良いと思います。
適切なフィードバックを行うことでデータの必要要否を精査し、ブラッシュアップすることが重要かなと感じました。

フィードバックの不足

洞察中での課題に対して改善点を考え次につなげるものになります。そのままですね。

アドホックでの分析であるのか、定期的な分析であるのかでもフィードバック内容が異なるかと思います。
私個人で実施している場合、アドホックで1回限りの分析を行う際、データ自体よりもデータの持ち方などデータの加工がしやすい、しにくいという観点でフィードバックすることが多いかと思います。
(加工がしにくいと分析する気にならないので)

定期的な分析であれば、次回以降の同じ分析のためにスライス、ダイジングできるものがほかに存在しないか、観点がそもそも抜けているものはないか、それらはどのデータを活用すると達成できそうなのかを考えていくと思います。

最後に

半年前に実装した際はここまで考えてはいなかったので、運用すると色々見えてくるものがあったなと思います。 プロジェクトでデータレイク基盤を構築・運用しているのとはまた別の課題も多く(私があまり考えていなかった)、考えさせられる点も多かったと思います。

特にデータレイク基盤を構築する理由については、データレイク基盤自体の認知がなくデータ蓄積が目的になってしまっているケースもありそうですので、今回遭遇したものを参考にプロジェクトなどにも活用できれば良いなと思いました。