Snowflake Marketplace上でM Data社が提供する日本のテレビ番組とテレビ広告に関するメタデータのサンプルを試してみた #SnowflakeDB

2022.12.05

※本エントリは、Snowflakeをもっと使いこなそう! Advent Calendar 2022の5日目の記事となります。

さがらです。

Snowflake Marketplace上でM Data社が提供する日本のテレビ番組とテレビ広告に関するメタデータのサンプルを試してみたので、その内容をまとめてみます。

Snowflake Marketplaceとは

Snowflake Marketplaceは、サードパーティのデータに簡単にアクセスすることが出来るSnowflake上の1機能です。

Snowflakeアカウントを持つユーザーであれば誰でも利用すること出来、世界中で公開されているデータの一覧を見て、すぐに利用申請を出すことが出来ます。(データは、すぐに無料で使うことが出来るものもあれば、一度データの管理元から承認を得た上で定期的に利用費用を払わないと使えないものもあります。)

日本市場でも徐々にSnowflake Marketplaceでデータを公開する企業が増えており、2022年10月24日には東芝テック社、インテージ社、Tangerine社、xMAP社、エム・データ社、メディカル・データ・ビジョン社、QUICK社、の7社がSnowflake Marketplaceでデータを公開することを発表しています。詳細は下記の記事をご覧ください。

この7社がSnowflake Marketplaceで公開しているデータのうち、サンプルデータが無料で公開されている内の1つを本記事にて試してみます。

M Data社の提供するデータについて

M Data社ですが、東京、名古屋、大阪地区、BSのテレビ局で放送されたテレビ番組やTV-CMを、テキスト・データベース化して「TVメタデータ」を構築し提供している企業です。

そのM Data社が、Snowflake Marketplace上でTV Metadata for TV-CM(Advertising) in Japan (Kanto)TV Metadata for TV Program Content in Japan(Kanto)として、M Data社が所有する日本のテレビ番組とテレビ広告に関するメタデータを提供しています。

以下は、Snowflake Marketplaceで公開している情報の引用です。

  • TV Metadata for TV-CM (Advertising) in Japan (Kanto)

You can know the contents of TV commercials (advertisements) broadcast in Japan. In this data, "when, which company, which broadcasting station, which program, what brand and product, what kind of direction, who's talent appeared, and what kind of information was attached, and from what hours, minutes and seconds to how many seconds were broadcast" is summarized. Five broadcasting stations in the Tokyo area broadcast more than 4000 TV commercials a day, all of which are converted into data. Other than the Tokyo area, data of the Osaka area, Nagoya area, and major BS stations can be provided as standard, and other areas can also be provided as an option.

※DeepL翻訳
日本で放送されているテレビCM(広告)の内容を知ることができます。このデータでは、「いつ、どの会社の、どの放送局の、どの番組で、どんなブランドや商品が、どんな演出で、誰のタレントが登場して、どんな情報を付けて、何時何分から何秒まで放送したか」がまとめられています。首都圏の5つの放送局では、1日に4000本以上のテレビCMが放送され、そのすべてがデータ化される。東京エリア以外では、大阪エリア、名古屋エリア、BS主要局のデータを標準で提供し、その他のエリアはオプションで提供することも可能です。

  • TV Metadata for TV Program Content in Japan(Kanto)

You can know the contents of TV programs broadcast in Japan. In this data, information about "when, who, what programs (topics), what kind of news and information, what companies and products, what hour, minute, second, and how many seconds were broadcast" is summarized by news and topic. Seven broadcasting stations in the Tokyo area broadcast more than 200 TV programs a day, all of which are converted into data. Other than the Tokyo area, data of the Osaka area and Nagoya area can be provided as standard, and other areas can also be provided as an option.

※DeepL翻訳
日本で放送されたテレビ番組の内容を知ることができます。このデータでは、「いつ、誰が、どんな番組(話題)を、どんな企業や商品を、何時何分何秒に放送したか」という情報を、ニュースや話題別にまとめています。首都圏の7つの放送局では、1日に200本以上のテレビ番組が放送されており、そのすべてをデータ化している。東京エリア以外では、大阪エリア、名古屋エリアのデータを標準で提供し、その他のエリアはオプションで提供することも可能です。

試してみた

ということで、実際にSnowflake Maketplaceからデータを取得し、どんなデータが入っているのかを確かめてみます!

サンプルデータの取得

※手順はどちらのデータも同じ要領でできますので、本記事ではTV Metadata for TV-CM (Advertising) in Japan (Kanto)の取得方法だけ記載しておきます。

まず、使用するロールをIMPORT SHARE権限を持っているロールに変更してください。(デフォルトではACCOUNTADMINのみ保持しています)

Snowflake上でMarketplaceを押します。

続いて、一番上の検索BOXにmdataと入れて検索します。すると、TV Metadata for TV-CM (Advertising) in Japan (Kanto)が出てきますのでクリックします。

このページでは、データの説明やサンプルクエリを見ることが出来ます。

データを利用するためには、画面右の取得を押します。

すると、下図のようなポップアップが表示されます。オプションを開くと、アカウント上に作成するデータベース名を変更したり、現在使用しているロール以外にどのロールにこのデータへのアクセスを出来るようにするか設定が可能です。

これらの設定が終わったら、取得を押します。

この後、対象のデータベースができていれば準備は完了です!

サンプルデータを試してみる:TV Metadata for TV-CM (Advertising) in Japan (Kanto)

TV Metadata for TV-CM (Advertising) in Japan (Kanto)について、サンプルクエリを実行して、どんなデータが入っているかを見てみます!

1つ目のクエリを試してみます。

// Identify commercials aired after 2019-03-01 09:30
select * from CM_SAMPLE
WHERE BROADCAST_START_DATETIME >= '2019-03-01 09:30';

取得できるデータとしては、放送局名、番組の放送開始時間、CMを提供する企業名、CMのブランド名、CMの秒数、対象のCMが初めて流れた日時、CMの状況を記したメモ、CMに出演している方の名前、CMのナレーション、CMのカテゴリ(番組宣伝・パソコン・家庭用品、など)、といったデータを取得することができます。

続いて2つ目のクエリを試してみます。使用するテーブルは1つ目のクエリと同じなのですが、放送局で絞り込みを行っています。

// Identify commercials aired on NTV stations
select * from CM_SAMPLE
WHERE BROADCAST_STATION_ID = '0410';

サンプルデータを試してみる:TV Metadata for TV Program Content in Japan(Kanto)

TV Metadata for TV Program Content in Japan(Kanto)について、サンプルクエリを実行して、どんなデータが入っているかを見てみます!

1つ目のクエリを試してみます。

// Identify commercials aired after 2019-03-01 05:00
select * from SCENE_SAMPLE
WHERE PROGRAM_BROADCAST_START_DATETIME >= '2019-03-01 05:00';

取得できるデータとしては、放送局名、番組の放送開始時間、番組名、番組のジャンル、対象レコードが示すシーンの放送時間・カテゴリ・ヘッドライン、と言ったデータを取得することが出来ます。

番組単位でレコードがあるわけではなく、番組の中でもシーンごとに分けてレコードが登録されているようです!

2つ目のクエリを試してみます。

続いて2つ目のクエリを試してみます。使用するテーブルは1つ目のクエリと同じなのですが、放送局で絞り込みを行っています。(NHKに絞り込みをしているようですね!)

// Identify commercials aired on NHK stations
select * from SCENE_SAMPLE
WHERE BROADCAST_STATION_ID = '0400';

最後に

Snowflake Marketplace上でM Data社が提供する日本のテレビ番組とテレビ広告に関するメタデータのサンプルを試してみました。

最近CMによく使用されている方を調べたり、競合企業はどういった番組のスポンサー担っているかを調べたり、用途は様々あるデータだと感じました!

気になる方はぜひSnowflake Marketplaceから申請頂き、触ってみてください!