Python と VSCode でデータプロファイリング・データクレンジング
データアナリティクス事業本部ビジネスソリューション部の大谷(おおや)です。
データマネジメントのデータ品質管理について学んでいく中で、データプロファイリングおよびデータクレンジングをローカル環境でも簡単にできないだろうかと初心者ながらに思うようになりました。
本記事では、 ローカル環境でデータプロファイリングおよびデータクレンジングを簡単に行うことができる Data Wrangler Extension for Visual Studio Code について簡単にまとめていきます。
データプロファイリングとは
データプロファイリングとは、データをよく観察して、その特性や品質を理解することです。
具体的には、データの形式やパターン、欠損や重複などを調べて、データがどのような状態にあるかを把握します。
データの品質を向上させたり、データを効果的に活用するための準備を整えたりする目的で行います。
データクレンジングとは
データクレンジングとは、データの中にある間違った情報や欠損、重複などを修正したり削除したりすることです。
データプロファイリング同様、データの品質を向上させ、データ分析などで正確な情報を使うことができるようにする目的で行います。
Data Wrangler Extension for Visual Studio Codeとは
Data Wrangler Extension for Visual Studio Code (以降 Data Wrangler )は、Visual Studio Code (以降 VS Code )の拡張機能です。
この拡張機能の大きな特徴は以下3つです。
- 列のデータ型に応じて、データの分布またはデータの出現頻度、欠損値の有無が一目でわかる
- フィルタリング、列の追加や削除、データの結合、集計などの操作を GUI で行うことができる
- GUI で行なった操作に関する Python(Pandas) のコードが自動的に作成される
前提
- VSCodeがインストールされている
- Python (バージョン3.8以上) の実行環境が用意されている
インストール
VSCodeの拡張機能ペインでData Wrangler
と検索すると下のような拡張機能が表示されるので、こちらをインストールします。
チュートリアル
Data Wrangler のチュートリアルで用意されているタイタニック号の乗客データを使用して各種機能について確認していきます
セットアップ
1. Data Wrangler を初めて起動すると、どの Python カーネルに接続するかを聞かれるので、ご自身の環境に合わせて選択してください。
2. Data Wranglerを使用する上で必要な依存関係インストールが求められます。
(インストールに失敗する場合は、手動でpip install
を実行し、Data Wranglerを再度起動し直してください。)
3. 依存関係のインストールに完了すると、 Data Wrangler が起動します。
Quick Insights ヘッダー
右上部にある Quick Insights ヘッダーがData Wranglerの大きな特徴の一つです。
まさに、列のデータ型に応じて、データの分布またはデータの出現頻度、欠損値の有無が一目でわかるようになっています。
ここを確認することで、簡単なデータプロファイリングを行うことができるのです。
また、さらに右上部にある、Go to column
検索ボックスがカラム数が多いデータの時にとても便利です!
操作パネル
左上部にある操作パネルを使用することで、フィルタリング、列の追加や削除、データの結合、集計などの操作を行うことができます。
具体的にできる操作については、公式ページを確認してみてください。
データクレンジングで必要になりそうな操作は、2024年2月5日現在すでに網羅されているように感じられます。
コードプレビューセクション
右下部にあるコードプレビューセクションには、先ほどの操作パネルで操作が選択されたときに、 Data Wrangler が生成した Python および Pandas コードが表示されます。
こちらに表示されるコードは編集も可能なため、用途に合わせて変更が可能です。
また、コードプレビューセクションに入力されたコードによって、操作される予定の列がデータグリッドに強調表示されるのも、わかりやすくておすすめです。
まとめ
今回は説明を省きましたが、Data WranglerはVSCode上でファイルを右クリックして開いたり、Jupyter Notebookから開くこともできます。
特に、開こうとしているファイルのエンコーディングが utf-8
以外の場合では、Jupyter Notebookからしか現状開けないため、それぞれでの開き方を確認しておいた方が良いと思います。
現在、Data Wranglerはプレビュー版ではありますが、GAされるのが待ち遠しいほどにとても便利な拡張機能です!
ぜひ、皆さんも使ってみてください。