インフォマティカ+AWS+クラスメソッド合同セミナーでデータカタログについて話しました。

データの入り(いり)と出(で)が大切ですよ!
2020.12.24

はじめに

クラスメソッド インフォマティカ Advent Calendar 2020を実施しています。本エントリはその24日目です。

去る2020年12月22日に、インフォマティカ+AWS+クラスメソッドで以下合同ウェビナーを実施しました。

発表内容

こちらのウェビナーでデータ分析基盤構築の経験談を話しましたので、発表スライドを共有します。

スライド中で触れているように、データ分析を実施する際には、その素材となる入りのデータと、最終的に見たい出のデータを決めることが重要だと考えています。 そのデータをシステム面およびビジネス面から確認、管理しやすくするためには、データカタログが必要になります。

データカタログは商用製品として複数提供されていますが、オープンソースソフトや既存のデータ管理の仕組み(それこそExcelも含みます)を工夫してデータカタログとして運用されている例もあります。 それぞれの企業でできる範囲から、自社のデータを見える化する活動に取り組まれることをお勧めします。

質問と回答

ウェビナー中、参加頂いた方から質問をいただきました。

現行システムのデータを洗い出す操作が大変です。AIなどを使って、入りや出のデータ構造を自動的に解析するような事はまだできないのでしょうか。

こちらの質問は、実際にプリセールスを行っている際に頻繁に頂くものです。
企業の中にあるデータは、それぞれの企業がそれぞれの業務ルールで生成されるものです。それを自動的に判別する仕組みは、残念ながら令和を迎えた現在でも実現できていません。
洗い出し作業は確かに大変なのですが、それでもご自身の会社のやるべきこととして取り組んで頂く必要があります。

「出」の明確化を経営層としていくうえで、そもそもどういった情報まで「出」に出せるかわからないと決めることができない、という回答に対して、どのように詰めていくかアドバイスはありますでしょうか。

「まず社内で出せるデータのリストを見せてくれないと、どれが経営判断に必要なデータかわからないと経営者が言っている」というこちらの質問も、上の質問ほどではないですがそれなりの頻度で頂きます。
敢えて厳しい言い方をすると、今まで経営層は何を見て経営判断していたのでしょうか…少なくとも経営判断に何がしか社内の情報は見ているはずなので、そこを聞き出して明確にする必要があります。もし全く聞き出せないのであれば、その会社の経営者は目隠し状態で経営判断をしているというとても恐ろしい事実が発覚する訳で…ウェビナーの初めの部分(スライドp.13)で私がお伝えした「そもそもデータ分析基盤を使って何を達成したいのか」を問い直す必要があります。
それでも何がしかデータ分析の基盤を作らなければならない場合は「出」ではなく「入り」の方から攻めるしか方法はありません。社内のシステムに蓄積されているデータを洗い出し、リスト化し、経営層にどれが経営判断に使えるか見て頂く…多大な時間的人的費用が発生しますが、これをやらない限り経営層が判断できないならやらなければなりません。
幸いなことに今のクラウド環境であれば、分析に必要「かも知れない」データも含めて全て生のまま収集、蓄積するデータレイクを構築することが可能です。これらを先に構築するアプローチもありますが、作ったデータレイクに何が入っているかは都度把握しないと巨大なゴミ溜め(別名「データスワンプ(沼)」)になってしまうので運用は気を配る必要があります。