#03：ハンズオンラボガイド「ロードするデータの準備」 – Snowflake Advent Calendar 2019 #SnowflakeDB

今回はまだデータはロードしません

Snowflake Advent Calendar 2019 「カスタマーストーリー」を支えるツール特集モダンデータスタック(MDS)

ビッグデータビジネス・アナリティクス Snowflake

たまちゃん

2019.12.03

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

どうもどうもどうもどうも。大阪オフィスの玉井です。

当エントリは『Snowflake Advent Calendar 2019』の3日目のエントリです。

「HANDS-ON LAB GUIDE FOR SNOWFLAKE FREE TRIAL」は、以下の9つのコンテンツで構成されます。本日はこの中の「Module3：Preparing to Load Data」を紹介します。

Module 1: Prepare Your Lab Environment
Module 2: The Snowflake User Interface & Lab “Story”
Module 3: Preparing to Load Data
Module 4: Loading Data
Module 5: Analytical Queries, Results Cache, Cloning
Module 6: Working With Semi-Structured Data, Views, JOIN
Module 7: Using Time Travel
Module 8: Roles Based Access Controls and Account Admin
Module 9: Data Sharing

事前情報

このモジュールの概要

データベースとテーブルを作成する
External Stageを作成する
File Formatを作成する

使用するデータ

Citi Bikeというシェアサイクリングサービスの利用者に関するデータを使います。

運営元が公式に公開しているデータ（要するにオープンデータ）になります。US-EASTリージョンのAmazon S3に配置されています。利用者の性別や年齢、乗った場所や時間などが記録されています。データは、6150万件あり、オブジェクトは377個、サイズは（圧縮されて）1.9GBあります。ダブルコーテーション囲みのカンマ区切りです。

モジュール本編

3.1 データベースとテーブルの作成

CITIBIKEというデータベースを作成します。

UIの上部にある「Database」タブを選択します。次に、「Create」をクリックし、データベースにCITIBIKEという名前を付け、「Finish」をクリックします（小文字で入力しても、自動的に大文字に変換されます）。

UIの上部にある「Worksheets」タブをクリックすると、SQLを実行できる画面に遷移します。

ここで、最初に、Worksheets内でコンテキストを適切に設定する必要があります。右上の「Context」セクションの横にあるドロップダウンの矢印アイコンをクリックして、Worksheetsのコンテキストメニューを表示します。ここでは、ユーザーが各Worksheetsから表示および実行できる要素を制御します。ここでは、UIを使用して、下記のようにContextを設定します。

Role: SYSADMIN
Warehouse: COMPUTE_WH (XL)
Database: CITIBIKE
Schema = PUBLIC

※私の環境がハンズオンラボと若干異なるため、微妙に設定値が異なっています。

ちなみに、ここまでで行った操作は、コンピューティングリソースを必要としないため、すべてのオブジェクトは無料で作成されています。

次に、カンマ区切りデータのロードに使用するTRIPSというテーブルを作成します。UIのWorksheetsタブを使ってSQLを実行し、テーブルを作成します。

create or replace table trips 
(tripduration integer, 
  starttime timestamp, 
  stoptime timestamp, 
  start_station_id integer, 
  start_station_name string, 
  start_station_latitude float, 
  start_station_longitude float, 
  end_station_id integer, 
  end_station_name string, 
  end_station_latitude float, 
  end_station_longitude float, 
  bikeid integer, 
  membership_type string, 
  usertype string, 
  birth_year integer, 
  gender integer);

Worksheetsに上記クエリを記述し、RunボタンかCtrl/Cmd+Enterを押すと、クエリが実行されます。SQLは、このWorksheetsから実行する以外にも、SnowSQLやPythonコネクタ等から実行する方法があります。

メニューのDatabasesを選択すると、先程作成したTRIPSテーブルが目視できます。テーブル名をクリックすると、テーブルの情報を確認することができます。

3.2 External Stageを作成する

今回は、すでに公開されているパブリックなS3バケットにステージングされているデータを扱います。このデータを使用する前に、まずバケットの場所を指定するExternal Stageを作成する必要があります。また、このハンズオンラボではEastリージョンのバケットを使用しますが、本来はSnowflakeのリージョンとS3バケットのリージョンは同じにすることがベストです（データ転送のコスト的に）。

Databases→Stages→Createとメニューを進めます。そして、今回持ってくるデータが置いてあるサービス…つまりS3を選びます。