F1日本GPを観戦するのでAlteryxを使って最近のF1事情を調べてみた
アライアンス事業部の兼本です。
F1に参戦しているマクラーレンチームが、当社アライアンスパートナーのひとつ「Alteryx」の顧客であり、同時にAlteryx社がマクラーレンチームのスポンサーをしていることはご存じでしょうか。
そして、なんと今回、Alteryx社からご招待いただき、2023/09/22から鈴鹿サーキットで開催されるF1日本GPの観戦をする機会をいただきました!
しかし、残念ながら私のF1知識はアイルトン・セナ、ミハエル・シューマッハで止まっているため、F1観戦のために最近のF1事情について調べてみました。
といっても、モータースポーツトーク番組「堂本光一のレースのミカタ」やF1情報誌のお話をしても仕方ないので、Alteryxを活用してF1のデータセットを簡単に分析してみます。
まずはデータセットを探す
KaggleにF1のレースに関するデータセットが公開されているのを見つけました。
1950年から2023年(第12戦のハンガリーGPまで)のデータが用意されていましたので、こちらを利用してみたいと思います。
サーキットはどこにある?
いくつかのデータセットのうち、circuits.csv にはサーキットの名称や緯度経度などの情報が含まれていました。Alteryxでは、空間分析用のツールを利用することで、緯度経度から空間ポイントを作成して地図上にプロットすることができます。
- 作成したワークフロー
-
実行結果
よく見ると日本に3つのサーキットがありますが、鈴鹿サーキット以外にも富士スピードウェイと岡山国際サーキットのデータが含まれていました。
最近のチーム序列どうなってるの?
F1はいろいろなチームが参戦しているため、どこのチームが勝っているのかを調べたいと思います。レースの結果は results.csv というデータに含まれているので、このデータを使って確認してみます。 プレビューを表示したところ、このデータはいくつかのレース名やコンストラクタ(チーム)名がIDになっているため、このままではどれがマクラーレンなのかわからないですね。(画像をクリックすると大きく表示できます)
このような場合、Alteryxでは複数のデータを読み込んでデータを特定のキーで結合(ジョイン)して利用することができます。
2023年のデータだけに絞り込むフィルタ処理をしていますが、これだけの処理で3つのデータを読み込んで、一つのレコードに結合することができました。 今回の作業では不要な情報もあるため、いくつかのカラムを削除した結果が以下のデータです。(画像をクリックすると大きく表示できます)
スプレッドシートのようにテーブル形式で表示されているので、なんとなくデータを読み取れそうですが、もう一工夫して可読性をあげたいところです。
レースごとのチーム順位やポイント獲得状況を調べてみる
Alteryxにはデータを集計するためのツールがいくつか用意されています。今回はそのうち「クロスタブ」ツールを使って、各レースの順位を確認するデータを作成してみます。ワークフローは以下のようになりました。
右下辺りにあるオレンジ色のツールがクロスタブツールです。ワークフローを実行した結果は以下の通りです。(画像をクリックすると大きく表示できます)
これをみると、RedbullとMercedesが結構上位に出てきている気がしますね。
今度は別の切り口でデータを検証してみます。Alteryxを使うと同じデータから分岐して複数の集計や分析を簡単に試すことができます。各レースでコンストラクタが獲得したポイントを集計する処理を作成してみます。先ほどの処理から分岐しているのが新しい処理です。
このワークフローを実行した結果は以下の通りです。(画像をクリックすると大きく表示できます)
改めて、RedbullとMercedesのポイント獲得状況が凄いのがわかりますが、一方で McLaren も最近のレースでは好調の様子です。これは日本GPでも活躍が期待できるかもしれませんね。
まとめ
今回はFormula 1 World Championship (1950 - 2023) データセットを使用して、簡単ではありますがF1のレース結果の分析を行いました。まだまだ他にもいろいろ検証したいところですが、明日も早いため今日はここまでにしておきます。
Alteryxを利用することで非常に簡単な操作でアドホックなデータ分析ができるんだなというのを感じていただけたならうれしい限りです。