[レポート]ブレイクアウトセッション「In-DBツールのパワーを最大限活用する方法」- Alteyrx Inspire 2018 #alteryx18

現地時間2018年06月04日〜2018年06月07日に米国アナハイムで開催されたAlteryxの年次カンファレンスイベント「Inspire 2018」。今回クラスメソッドからは計4人のメンバーが現地参加しました。

当エントリではイベント2日目に行われたブレイクアウトセッション「In-DBツールのパワーを最大限活用する方法」について、その内容をレポートしたいと思います。

目次

 

セッション概要

当トレーニングセッションの概要は以下の通りです。

セッションタイトル:
 Nothing Compares 2 Harnessing In-DB: The Whys, Whens, and Hows.

講師:
 Alex Patten (Alteryx / Product Manager, Data Platforms)

セッション概要:
The great marvel of In-Database is that it enables blending and analysis against large sets of data without moving the data out of a database not to mention the performance improvements over traditional methods. Attend this session for a high-level how-to of In-DB tools, the underlying principles and best practices that make In-DB powerful, and last but certainly not least, hear all about our In-DB roadmap.
(In-Databaseの大きな驚異は、従来の方法よりもパフォーマンスが向上したことはもちろんのこと、データベースからデータを移動することなく、大規模なデータセットに対してブレンディングと分析を可能にすることです。 このセッションでは、In-DBツールの高度な使い方、In-DBを強力にする原則やベストプラクティス、そして最後にはもちろん、In-DBロードマップに関するすべての情報をお届けします。)

 

セッションレポート

ハンズオンセッションの主な内容をレポートします。

 

In-DB 概要

仕組みはこの様な形。

  • データが増加している
    • 人類の過去の歴史全体よりも過去2年間に多くのデータが作成されている
    • 2020年までに、地球上のすべての人間のために毎秒1.7メガバイトの新しい情報が作成される
    • 2020年までに、データのデジタル世界には44ゼタバイトが含まれ、現在は4.4ゼタバイトから増加している
  • データストレージが変化している
    • 2020年までに、すべてのデータの少なくとも1/3がクラウドを通過している
    • ハープマーケットは、2020年までに年間10%増の58%で成長すると予測される
    • 毎日、Googleは分散コンピューティングを使用して、1つの検索クエリに答えて約1,000台のコンピュータを使用、計算には2秒と掛かっていない形に
  • データへのアクセスは貴重な洞察の鍵
    • 現在、全データの0.5%未満が分析され使用されている
    • 典型的な幸運1000企業の場合、データアクセシビリティが10%増加すると純利益は6500万ドル増加
    • ビッグデータのフルパワーを活用する小売業者は、営業利益率を60%高めることができる

 

誰がIn-DBを使うべきか

  • 次の場合はin-dbを使用することを考えてみよう
    • 大規模なデータセットを扱っている
    • データソースがHDFS上にある(Hive、Impala、Spark)
    • データソースはクラウドにある(Azure SQL Database、Azure SQL DW、Amazon Redshift、Snowflake)
    • データソースがローカルサーバーにない
    • データソースはAlteryxでサポートされている
    • ワークフローのどの部分も縮小されたデータセットで作業している

 

現在のIn-DB機能

  • 新しくIn-DB対応となったデータソース
    • PostgreSQL
    • Snowflake
    • MySQL
    • Vertica
    • Greenplum
    • EXASOL
  • Generic ODBCオプションが利用可能に

 

In-DBツールのメリット

速さ

  • 柔軟性
  • ハイブリッドワークフロー
  • Alteryxとデータソース間のデータ転送が無い
  • 処理は完全に基礎となるデータソースで行われる

柔軟性

  • 基礎となるデータソースにすべてのデータが存在しない場合でも、in-dbのパワーを活用出来る
  • ローカルファイルからのデータを基になるデータソースのテーブルとブレンド

ハイブリッドワークフロー

  • すべてのAlteryx機能をフルに活用

In-DB Tips and Tricks

  • Browse In-DBツールとData Stream Outツールの賢い使い方
  • できるだけ早くデータセットを減らす
  • クエリの表示方法
  • HiveとImpalaの書き込みをより速く行う方法
  • In-DB予測ツールの使い方

 

In-DB:ロードマップと今後の展望

ロードマップ

  • DB内ツールセットの拡張
  • Core In-DBツールの強化
  • 追加データソース対応

In-DB戦略

  • In-DBをよりアクセシブルに
  • DB内の経験を標準の経験と同じにする
  • In-DB内のソース、機能、およびツールの構築

まとめ

  • In-DBツールを使うことで大幅なパフォーマンス向上が見込める
  • 大量のデータを扱っている場合、In-DBを検討してみよう
  • 「Tips and Tricks」も参考に

 

まとめ

という訳でAlteryx Inspire 2018:ブレイクアウトセッション「In-DBツールのパワーを最大限活用する方法」のレポートでした。

In-DBツールは名前の通り、データベース周りの処理をワークフローとして作り上げていく際にとても便利に扱えるツールとなっています。賢く使って行きたいですね!!

Alteryxの導入なら、クラスメソッドにおまかせください

日本初のAlteryxビジネスパートナーであるクラスメソッドが、Alteryxの導入から活用方法までサポートします。14日間の無料トライアルも実施中ですので、お気軽にご相談ください。

alteryx_960x400