Parquetの中身を簡単に表示できるGUIツール「ParquetViewer」の紹介

2020.08.18

こんにちは!DA(データアナリティクス)事業本部 インテグレーション部の大高です。

最近、社内勉強会で「Parquetファイルの中身を確認するのにどんなツールを使っているか?」という話題が出ました。Windows限定となってしまいますが、個人的に利用している「ParquetViewer」が便利なので、紹介をしたいと思います。

ParquetViewerとは?

.NETで作られている、GUIでParquetファイルの中身を表示できるツールです。GitHub上で公開されています。

実際の画面はこんな感じです。

ダウンロード

ParquetViewerは以下のページからダウンロード可能です。

「ParquetFileViewer.exe」のリンクをクリックしてダウンロードすれば完了です。また、単一の実行ファイルになるのでインストールなどは不要です。

サンプルデータ

今回利用したサンプルデータは、こちらのファイル「postcodes.plain.parquet」を利用させて頂きました。

ちなみに、こちらのリポジトリ「parquet-dotnet」はParquetファイルを扱う.NETのライブラリなのですが、「ParquetViewer」のREADMEで謝辞が記載されていました。

This utility would not be possible without: https://github.com/elastacloud/parquet-dotnet

表示してみる

実際にサンプルデータを表示してみます。ダウンロードした「ParquetFileViewer.exe」をダブルクリックして起動しましょう。

ファイルを開くには、Parquetファイルをドラッグ&ドロップするか、メニューから「File > Open」で開くことができます。

また、ファイルを開く際に「どのカラムをロードするか」を聞かれます。この時点でカラム情報を読み込んでくれているので、表示したいカラム名にチェックを入れて絞り込みをしてからロードすることができます。

ロードがされるとこのように表示されます。

フィルタ

画面上部にあるフィルタクエリのフィールドから、フィルタを掛けることができます。例として、以下のようにSQL形式でフィルタを記述して「Execute」ボタンをクリックしればフィルタが掛かります。

WHERE InUse = 'Yes'

「Clear」ボタンをクリックすると、フィルタが外れます。なお、左側の「Filter Query」という箇所をクリックするとフィルタの書き方のサンプルが表示されます。やさしい!

オフセット表示

レコードをオフセット表示することができます。例えば「10件目から5件だけ表示したい!」という場合は、こんな感じです。こちらは特にボタンなどをクリックしなくても、すぐに反映されます。

フィールドの追加と削除

これは、最初にファイルを開いた際に聞かれたものと同じです。フィールドを追加したり、削除したりできます。

例として4カラムだけに絞り込むと、

こんな感じになります。

まとめ

以上、「ParquetViewer」の紹介でした!Windows限定とはなりますが、便利なツールなので私はとても気にいってます。

どなたかのお役に立てば幸いです。それでは!