AWS Data Exchange で新型コロナウイルス(COVID-19)関連のデータセットが公開されています
AWS Data Exchange ってご存知でしょうか?
ざっくり説明するならば、「AMI」「コンテナ」「セキュリティ」に次ぐ、「データ」の AWS マーケットプレイスです。
Twitter で知ったのですが、新型コロナウイルス(COVID-19)関連で幾つかのデータセットが公開されているようですね。
I'm aware of several developers who are building apps, models, and tools that relate to COVID19 in some way. Here are some relevant data products (9 free and 1 paid) listed in AWS Data Exchange - https://t.co/uuV7FyCBhM : pic.twitter.com/7e395sJsdn
— Jeff Barr ☁️ (@ ? ) (@jeffbarr) March 27, 2020
私はデータ分析に明るくないので、これらのデータを使って分析してみました!といった記事は書けないのですが、このようなデータを活かせるどなたかに「へぇー、Data Exchange なんてサービスあるのか」「ほぉ、このデータ面白そう。試しに使ってみるか」と伝われば良いな、と思って記事にしてみました。
目次
- AWS Data Exchange とは
- 公開されている COVID-19 関連のカタログ
- [Rearc] 新型コロナウイルス病(COVID-19)検査データ|COVID追跡プロジェクト
- [Rearc] COVID-19 公開研究データセット (CORD-19) |アレンAI研究所
- [Rearc] アメリカの病院用ベッド - COVID-19|Definitive Healthcare
- [SafeGraph] Covid-19研究の無料データ:空港のフットトラフィックパターン
- [Enigma] グローバル新型コロナウイルス(COVID-19)データ(コロナデータスクレイパー)
- [Enigma] オックスフォードCOVID-19政府対応トラッカー(OxCGRT)
- [Enigma] グローバル新型コロナウイルス(COVID-19)データ(ジョンズホプキンス)
- [Foursquare] COVID-19フットトラフィックデータ(無料)
- [ALC Marketing Data] COVID-19: 米国の消費者データ COVID-19 への対応 - 無料の完全版
- [TruFactor] TruFactor IntraCounty Geo Mobility(米国 - 全国) - トライアル
- ※有料 [Prosper Insights & Analytics] Strategic Insights:新型コロナウイルスCovid-19消費者
- Data Exchange の使い方
AWS Data Exchange とは
2019年11月にリリースされた、サードパーティのデータを購読、または所有するデータの販売が出来るサービスです。利用者はデータプロバイダーのデータを購読することで、ダウンロードもしくは S3 バケットにエクスポートが可能です。これらのデータを使って機械学習やデータ分析等に利用することができます。
公開されている COVID-19 関連のカタログ
執筆時点で covid
で検索したところ 11 件(無料10件、有料1件)がヒットしました。Google 翻訳を駆使して、ざっくりと概要を紹介します。
[Rearc] 新型コロナウイルス病(COVID-19)検査データ|COVID追跡プロジェクト
COVID Tracking Projectは、米国50州、コロンビア特別区、およびその他5つの米国準州から情報を収集し、新型コロナウイルスSARS-CoV2の最も包括的な検査データを提供しています。このデータセットには、現在データを報告している各州または地区の陽性・陰性結果、保留中の検査結果、および検査を受けた人の総数が含まれています。
[Rearc] COVID-19 公開研究データセット (CORD-19) |アレンAI研究所
COVID-19のパンデミックに対応するため、アレンAI研究所は主要な研究グループと提携し、COVID-19とコロナウイルスファミリーに関する4万4,000件以上の学術論文(うち2万9,000件以上が全文を含む)の無料リソースであるCOVID-19 Open Research Dataset(CORD-19)を作成・配布し、世界の研究コミュニティが利用できるようにしています。
[Rearc] アメリカの病院用ベッド - COVID-19|Definitive Healthcare
Definitive Healthcareは、米国内の病院の認可病床数、病床数、ICU病床数、ベッド利用率などの情報を提供しています。
[SafeGraph] Covid-19研究の無料データ:空港のフットトラフィックパターン
フットトラフィックパターンは、訪問およびユニークビジターを含む、個々のPoint-of-interest(POI)への集約されたフットトラフィックメトリックを含むデータセットです。 この無料のデータセットには、2019年11月に開始し、データセット(NAICSコード488119)内のすべての米国空港の場所について今後更新されるパターンが含まれています。 データセットには、約2,900 POIのパターンが含まれています。
[Enigma] グローバル新型コロナウイルス(COVID-19)データ(コロナデータスクレイパー)
全世界の新型コロナウイルス(COVID-19)データは、米国の郡レベルのデータを含み、確認された症例数、死亡者数、回復者数、ウイルス検査を受けた人の数を追跡しています。1時間ごとに更新されます。
[Enigma] オックスフォードCOVID-19政府対応トラッカー(OxCGRT)
COVID-19の発生に対する世界政府の対応の時系列。学校の閉鎖、旅行禁止、その他の措置などの11の指標が含まれます。 オックスフォード大学の学生とスタッフによって収集されました。
[Enigma] グローバル新型コロナウイルス(COVID-19)データ(ジョンズホプキンス)
確認された症例数、死亡数、および回復数を追跡するグローバル新型コロナウイルスデータは、場所別に毎日更新されます。 2020年3月23日以降、ジョンズホプキンス大学は米国の郡レベルのデータの投稿を再開しました。
[Foursquare] COVID-19フットトラフィックデータ(無料)
この無料のデータセットには、19のカテゴリの会場へのインデックス付きのフットトラフィックが含まれています。 インデックス化されたデータは地理的に分類されており、National、SF、NYC、LA、シアトルのデータが含まれています。 データは、米国の国勢調査データに対して正規化され、年齢、性別、地理的バイアスが除去されます。 データは2020年2月19日から毎日提供されます。
[ALC Marketing Data] COVID-19: 米国の消費者データ COVID-19 への対応 - 無料の完全版
ALC Data Essentialsファイルは、米国の100%の世帯をカバーしており、世帯内のすべての個人を含みます。HIPPA 準拠。
[TruFactor] TruFactor IntraCounty Geo Mobility(米国 - 全国) - トライアル
IntraCounty Geo Mobilityのトライアル・データセットは、年齢層別に移動行動がどのように変化しているかを郡内で推定しています。セグメント別の細かな移動パターンを理解することで、小売、CPG、不動産、広告への投資を "新常識 "に導くことができます。モビリティーの動向は、投資分析のための経済活動の初期の指標にもなります。このデータは、COVID-19の感染率と在宅滞在などのポリシーに応じて、モビリティの行動が粒度でどのように変化しているかについて、健康、政策、経済の研究者をサポートすることもできます。
※有料 [Prosper Insights & Analytics] Strategic Insights:新型コロナウイルスCovid-19消費者
2020年3月の米国消費者調査データ(N=7,897)の結果は、新型コロナウイルスCovid-19の状況に関する消費者の懸念と行動をカバーしています。匿名調査データは、懸念のレベルと取られている行動をカバーしています。100%プライバシーに準拠。個人情報は使用していません。HIPAAおよびCCPA準拠。データは、主要小売店の買い物客だけでなく、人口統計学的グループごとに整理されています。20の商品カテゴリーの主な購入計画および支出意向が含まれています。
興味深い公開データはあったでしょうか?
もし気になるデータがあったならば、以下の手順を参考に購読、S3 へのエクスポートを行ってデータを入手しましょう!
Data Exchange の使い方
AWS 管理コンソールのサービス一覧より、AWS Data Exchange
を検索しメニューを開きます。利用可能なデータ製品を調べる
をクリックします。
カタログ参照の検索バーより covid
を検索すると、対象のデータがみつかります。利用したい対象のデータ名をクリックします。
データセットに関する概要が表示されますので内容を確認のうえ、利用したい場合は サブスクリプションを続行する
をクリックします。確認したかぎり利用できるデータセットはバージニアもしくはオハイオのいずれかのようです。
更新設定により期間満了時のアクションを設定できます。デフォルトでは はい
が選択されていますが、自動更新時にオファー条件(新しい価格、新しいデータサブスクリプション契約)が変更された場合、自動的にその条件が適用されることになりますのでご注意ください。(私は自動更新無効にしています)
価格、期間、データサブスクリプション契約、および返金ポリシーに同意し、製品を サブスクライブ
します。
5〜10分の後、サブスクリプションが完了しますので [マイサブスクリプション] - [権限を持つデータセット] に追加されていますのでデータセットの名前をクリックします。(表示されていない場合は、データセットが提供されていないリージョンで確認していると思われますのでリージョンを切り替えてください)
使用するデータのリビジョン ID をクリックします。
使用するアセットを選択し Amazon S3 にエクスポート
をクリック。
インポート先の S3 バケットを指定し、エクスポート
をクリックします。(リージョン間で複製する場合は、リージョン間の転送料金が発生します)
エクスポートを実行するとジョブが作成され、しばらくした後に 完了
となります。
対象の S3 バケットを確認すると、データがエクスポートされていることが確認できます。
これでデータセットを利用できる状態になりました!
マルウェア対策
AWS Data Exchange ではプロバイダーによって公開されたすべてのデータをスキャンしています。AWS でマルウェアが検出された場合、影響をうけるアセットは削除されます。
ただし、潜在的なマルウェアがないことを保証するものではありませんので、必要に応じてユーザー側で追加の検査等は行ってください。
さいごに
国内では未だデータマーケットが活発といえる状況にはないため、AWS Data Exchange の存在を忘れてしまいがちですが、今回はじめて使ってみた感想としては AWS のなかだけでデータの購読、エクスポートが完結するので非常に便利ですね。
以上!大阪オフィスの丸毛(@marumo1981)でした!