Alteryx Inspire 2017 : 【レポート】GCI社の”世界最長の犬ぞり大レース”へのAlteryx活用事例 #alteryx17
『Alteryx inspire 2017』が2017年6月5日(月)〜6月7日(水)、アメリカのラスベガス ARIA HOTELにて3日間開催されています。 当エントリでは、ビジネスリーダートラックとしてGeneral Communication Incorporated社による「The last great data race」をレポートしたいと思います。
セッションの概要
セッション概要は以下の内容となります。
Matt Childs
ディレクター, データアナリティスト General Communication Incorporated (GCI)
セッション概要:
Mattはアラスカ最大の情報通信会社であるGeneral Communication Incorporated (GCI)にソフトウェア開発者としてBusiness Intelligenceグループに入社し、10年間勤務しています。物流、エネルギー、金融機関など、さまざまな業界で25年間IT部門で働いてきました。 1998年にデータウェアハウスでの仕事がきっかけで今日まで情熱を注いでいます。 O'Reillyの出版物で出版されている「VBA in a Nutshell」という本の共著者の一人です。 現在はアラスカ州アンカレッジに住んでいます。
Tracksより引用
Agenda
- General Communication Incorporated (GCI)社の紹介
- the Iditarodとは
- トラフィック分析
- ワークフローのレビューイング
- 分析結果とネクストステップ
- まとめ
General Communication Incorporated (GCI)社の紹介
まず最初に、登壇者であるMatt氏が所属する会社の紹介として、以下の動画を流しました。
General Communication Incorporated (GCI)社は1979年に創業し、アラスカ州アンカレッジに本社があります。最大手の通信コミュニケーションテクノロジーとして、主にケーブルテレビサービス、インターネットアクセス、ネットワーキングや携帯電話サービスを展開しています。企業公式ホームページは以下をご参照ください。
Matt氏の自己紹介
Matt氏個人の経歴については以下の通り。
- 1998年からBIを利用開始
- 2000年にGCI入社
- データウェアハウスの初期構築と設計のサポートを担当
(当時はOracleなどを典型的な分析ツールを利用していた) - 2013年にセルフサービスビジネスインテリジェンスに注力し、Alteryx導入スタート。
- 最近は予測分析としてPredictive Modelを活用し始めている
社内でのAlteryxの利用状況についてはまだそこまで多くは無く、Designerの4ライセンスを現在18ユーザーで業務内で使用している、という状況だそうです。
the Iditarodとは
GCI社のAlteryx活用事例として、Matt氏は『the Iditarod』というイベントのケースを紹介しました。
『the Iditarod』は1973年より開催されている国際的な犬ぞり大会で、レースに用いるコースの総距離はアラスカ南部のアンカレッジから西ベーリング海岸のノームまで約1,049マイル(なんと1688.202Km!)険しい山岳地帯や凍っている川、前も見えないほどブラインドネスな長時間の暗闇などなど、とにかくアラスカだからこそできる地球上で最もエキサイティングな大レースです。
2017年の今年は、Mitch Seaveyによって新記録更新がなされました、その記録はトータル8日間でなんと3時間40分13秒!予測不可能と言って良い程の大自然の中を天候関わらず走り続けてこの記録、というのは凄いですね。ちなみに、今まで一番ゴールまで時間のかかった1974年の優勝レースでは、20日間、15時間2分7秒!約20日以上をレースし続けるのは全くもって想像できませんw
GCIは、このIditarodにスポンサーとしてテクノロージーにおいてサポートをしています。 ブロードキャストでリアルタイムに動画配信を行うだけでなく、大会の全体的な管轄支援を行なっています。
Large datasets, #spatial analytics, data cleanup and migration no longer pose a “furry” situation for GCI with Alteryx! #alteryx17 pic.twitter.com/HE092HZXXc
— Alteryx (@alteryx) 2017年6月6日
トラフィック分析
当レースにおける一番の課題として、レースのロケーションを大規模で多様なネットワークのマネージメントがありました。 範囲が広大なため、大会のレース状況に合わせてサポートチームやボランティアの配置をきちんと整理しないといけないという状況があり、GCI社はここにAlteryxを活用しました。
データの種類
必要な分析は『予測分析』と『地理空間情報分析』の2種類。 これら分析を行うために、各種データを利用しました。
レースデータ
- 全ての犬ぞりのトラッキングをiditarodのウェブサイトからデータを取得
- テーブル情報はImport.ioを入力として利用
- 犬ぞりレースのデータは時間単位の詳しい情報が含まれている
- 詳細情報のデータから予測分析を実施
ワイヤレス利用量データ
- レースルートにおける地域とロケーションでの複合した利用量 (2種類のルートを毎年利用している)
- 地理的なデータセットではなく、一般的なネットワーク使用量のデータ
- Spatialを利用して空間情報で分析
ワークフローのレビューイング
各種データの準備が整ったら、分析スタート。
(スライドに毎回、可愛い可愛いわんちゃん達が登場して、ニヤニヤしてました)
実際に利用しているワークフローを元にデモを紹介。
複数の各データベースからAlteryxのツールを利用し、必要な情報を取得後、Tableauと連携をしているそうです。
ワークフローの課題 → Alteryxでの解決方法
ワークフローを作成する上で課題となっていた以下のポイントについては、それぞれAlteryxの各種機能を用いる事でクリア出来ました。
- 大容量のデータセットを動かす → In-Database toolでさらに各サーバーの処理速度を高める形に
- 空間情報分析 → 分析をする前にデータ範囲を選択できるのでレースに対して適切な部分を摘出
- データのクリーンアップとマイグレーション → 全てのデータに対して一定レベルでのクレンジング加工が可能に
大会中のワイヤレスネットワークの使用量をレポート形式で可視化し、共有をすることで過去の大会データと比較し、 開催期間中に何が必要かを推測するようにしています。
分析結果とネクストステップ
最後には、Matt氏が分析を行い学んだことと今後の課題としてネクストステップを紹介しました。
学んだこと
Matt氏はAlteryxをユーザーとして利用始めてから、今まで発見できなかったような新しい発想を浮かぶようになったそうです。
- 大容量のデータセットを含むデータにAlteryxへのインプットの制限がなく処理速度が早い
- 今回のケースには空間情報分析は非常に重要な役割 (特に特定の詳細位置においてターゲットを指定できる)
- 自分たちのデータが全くもって整理されていないと気づいた
- ユーザーベースで大事なテクニックやコンセプトの情報を読み取れるので伝達速度が早い
データを管理だけでも、どこに重要なデータがあるか探すことで時間がかかってしまい、その先の分析まで持っていくのに容易ではなかったそうです。 毎年開催されるので、その分データも増えていくのですが、Alteryxで一定のワークフローを作成してしまえば、後は同様の操作をするだけで済みます。 ユーザーフレンドリーな操作方法で、データアナリティストではない人でも自らデータの処理を進んでするようになったそうです。
Alteryx利用頻度を高めるための各種取り組み
Alteryxの利用を高めるために、Matt氏は以下の取り組みを始めていきました。
- 2016年からGCI社内でのユーザーグループを発足
- 頻度高く開催をしており、各自が身につけたスキルやお互いに教え合うことを大事にしています。 他の部署とのデータ活用をディスカッション形式で話すので、その場で思いついたものをデータ連携してサービス向上に繋がっています。
- "Brown Bag"を開始
- "Brown Bag"という言葉は日本でなかなか耳にすることはないですが、これはアメリカの企業で行われるランチ時間を利用したカジュアルなミーティングです。 アメリカのランチに利用する茶色の紙袋が名前の由来となり、オフィスやトレーニングルーム、カンファレンスルームを利用して1時間程ランチをみんなでしながらミーティングを開催しています。
- マネージメントプレゼンテーションの開催
- ワークフローを紹介するプレゼン大会を開催しています。
- パーソナルコンタクト
- スタッフとAlteryxを軸としてやり取りが増えたので、密に個別対応できる仕事とは別のアドレスを作成するようにしました。
- Galleryの活用
- Alteryx Galleryを活用し、社内外にも知識を共有しました。
Matt氏曰く、『社内のまだ利用していない人に対してアプローチを進めていくのも今後の活動の重要な一環。データ分析を知らない人に対して利用してもらうアドバイスとしては、ツールをきちんと使えるように紹介して、実際のデータからワークフローの作成方法を伝えています。』との事。
またとある部署では、40スプレッドシートを毎週月曜に収集していたので、そのデータからAlteryxを利用して一瞬でできると見せたところ、一瞬でAletryxの虜になってくれたそうです。『業務に掛かっていた数時間分を省力化でき、他のチャレンジしたい課題に取りかかれる』というAlteryxを使う事によるメリットを存分に受ける事が出来たのが大きなポイントですね。
ネクストステップ
GCI社は今後はAlteryxを今回のIditarod大会だけでなく、アメリカ本土の拠点でも活用を促進していく活動を積極的に行なっていくとの事。
Matt氏も『自社が保有するネットワーク関係のイベントのデータに対しても連携させるので、今年も引き続き毎年、学んだことを活用できるように、日々勉強していきたい。次の課題としては、Predictive(予測分析)やPrescriptive(処方的分析)のモデルの知識を深ることです。』と意欲を語りました。
またAlteryxには、Communityを通じてユーザー同士がやりたいことに対して協力し合えるので非常に助かっている、ともコメントし、コミュニティの重要性についても言及していました。
セッション資料
本セッションの動画・スライドは以下になります。
[slideshare id=77312062&doc=gci-thelastgreatdatarace-inspire2017-170627192533]
まとめ
このセッションは、Alteryxを利用し始めた人にわかりやすい内容となっていました。 データの前処理やブレンディングだけではなく、実際のイベントに対して予測分析や空間情報分析といった Alteryxの特性を発表していたので、セッション終了後にはオーディエンスからも、質問の嵐でした。 Iditarodの大会をストリーミング配信で観れるとのことだったので、来年はチェックしてみたいです!