【レポート】ビジュアルツールで簡単に始められるデータ加工 #AWSSummit

AWS Glue DataBrewについてデモを実践しながら学べるセッションです〜
2021.05.27

AWS Summit Online Japan 2021 のDeveloper Zoneにて公開されているセッション「ビジュアルツールで簡単に始められるデータ加工」を視聴したので、内容をまとめています。

セッション情報

登壇者

アマゾン ウェブ サービス ジャパン株式会社 ソリューションアーキテクト アナリティクス 川村 誠 氏

セッション概要

データの可視化や分析、機械学習には、データのクリーニングや正規化といったデータ加工が必要になります。AWS Glue DataBrew を利用すると、ビジュアルツールで簡単に素早くデータを加工できます。実施したデータ加工手順をレシピとして保存したり、保存したレシピを共有することができるので、データ加工が効率的になり、ビジネスから得られる価値創出に集中できるようになります。今日からすぐにデータ加工を始められるように、AWS Glue DataBrew の使い方をデモを交えてご紹介します。

レポート

アジェンダ

  • データで困っていることありませんか
  • AWS Glue DataBrew
  • デモ
  • ユースケース
  • 料金
  • まとめ

データで困っていることありませんか

  • 自部署の商品売り上げレポートを毎週まとめているけど、データ量が増えすぎてExcelで処理できなくなった
  • 複数のデータソースを統合しているので処理の内容がよくわからなくなってしまった
  • 手作業でレポートを作っており、毎週半日くらいがレポート作成に費やされている ...など

AWS Glue DataBrew

  • コードを記述することなくデータの加工整形ができるビジュアルデータ準備ツール
  • 分析や機械学習(ML用)で必要なデータの準備にかかる時間を、個別に開発した場合のデータ準備のものと比べて最大80%短縮可能
  • 250以上の変換機能(欠損値の置換、標準形式へのデータの変換など)を活用して、データ準備タスクを自動化することができる

デモ

デモのイメージ

  • プレビューなどでインタラクティブに加工後のデータを事前確認することが可能
  • 操作した一連の手順を「レシピ」として保存することが可能

ユースケース

  • 新しい情報の追加
    • 外部のマーケティングデータを追加したい場合
    • 商品名の変更や販売店舗移転があったので、手元にあるデータパッチをあてたい場合
  • 加工整形手順(レシピ)の共有/再利用
    • 別プロジェクトの加工整形手順をベースに新しい加工整形手順を作りたい
    • 過去の加工整形手順を使い回したい
  • データ加工整形の自動化
    • 手作業でレポートを作っており、毎週半日くらいがレポート作成に費やされている
    • 月次でレポートしていた情報をデータ更新に応じてタイムリーにお客様に届けたい

料金

  • DataBrew インタラクティブセッション
    • ビジュアルツール利用時間に基づきセッション(30分)毎に請求される
    • 利用料金は 1.00 USD / セッション
    • DataBrew プロジェクトを開くとセッションが開始され、未操作の時間が続いた場合、自動的にサスペンドする
  • DataBrew ジョブ
    • ジョブの実行に使用された AWS Glue DataBrew ノードの数に基づき、1分毎に請求される
    • 利用料金は 0.48 USD / DataBrew ノード時間
    • デフォルトは各ジョブに5ノード割り当てられる

まとめ

  • AWS Glue DataBrewは、ビジネスユーザの方も簡単にデータを読み込み、加工整形をすぐに始められるビジュアルデータ準備ツール
  • データ加工手順をレシピとして保存し、共有可能
  • AWS Glue DataBrewが提供する機能を利用することでデータ加工整形を効率化し、ビジネス価値創出により多くのリソースを注力可能

所感

AWS Glue DataBrewについて、デモを実践しながら30分弱で学べるお手軽なセッションでした!
なかなか触れていなかったので、短い時間で一通り触りながら学ぶことができて良かったです。
またセッション中に出てくる基本用語などについては、下記のブログなどでも詳細にまとめられています。
あわせて確認すると、より理解が深まると思います!