[レポート]ブレイクアウトセッション「In-DBツールのパワーを最大限活用する方法」- Alteyrx Inspire 2018 #alteryx18
現地時間2018年06月04日〜2018年06月07日に米国アナハイムで開催されたAlteryxの年次カンファレンスイベント「Inspire 2018」。今回クラスメソッドからは計4人のメンバーが現地参加しました。
当エントリではイベント2日目に行われたブレイクアウトセッション「In-DBツールのパワーを最大限活用する方法」について、その内容をレポートしたいと思います。
目次
セッション概要
当トレーニングセッションの概要は以下の通りです。
講師: Alex Patten (Alteryx / Product Manager, Data Platforms)
セッション概要: The great marvel of In-Database is that it enables blending and analysis against large sets of data without moving the data out of a database not to mention the performance improvements over traditional methods. Attend this session for a high-level how-to of In-DB tools, the underlying principles and best practices that make In-DB powerful, and last but certainly not least, hear all about our In-DB roadmap. (In-Databaseの大きな驚異は、従来の方法よりもパフォーマンスが向上したことはもちろんのこと、データベースからデータを移動することなく、大規模なデータセットに対してブレンディングと分析を可能にすることです。 このセッションでは、In-DBツールの高度な使い方、In-DBを強力にする原則やベストプラクティス、そして最後にはもちろん、In-DBロードマップに関するすべての情報をお届けします。)
セッションレポート
ハンズオンセッションの主な内容をレポートします。
In-DB 概要
仕組みはこの様な形。
- データが増加している
- 人類の過去の歴史全体よりも過去2年間に多くのデータが作成されている
- 2020年までに、地球上のすべての人間のために毎秒1.7メガバイトの新しい情報が作成される
- 2020年までに、データのデジタル世界には44ゼタバイトが含まれ、現在は4.4ゼタバイトから増加している
-
データストレージが変化している
- 2020年までに、すべてのデータの少なくとも1/3がクラウドを通過している
- ハープマーケットは、2020年までに年間10%増の58%で成長すると予測される
-
毎日、Googleは分散コンピューティングを使用して、1つの検索クエリに答えて約1,000台のコンピュータを使用、計算には2秒と掛かっていない形に
-
データへのアクセスは貴重な洞察の鍵
- 現在、全データの0.5%未満が分析され使用されている
- 典型的な幸運1000企業の場合、データアクセシビリティが10%増加すると純利益は6500万ドル増加
- ビッグデータのフルパワーを活用する小売業者は、営業利益率を60%高めることができる
誰がIn-DBを使うべきか
- 次の場合はin-dbを使用することを考えてみよう
- 大規模なデータセットを扱っている
- データソースがHDFS上にある(Hive、Impala、Spark)
- データソースはクラウドにある(Azure SQL Database、Azure SQL DW、Amazon Redshift、Snowflake)
- データソースがローカルサーバーにない
- データソースはAlteryxでサポートされている
- ワークフローのどの部分も縮小されたデータセットで作業している
現在のIn-DB機能
In-DBツールのメリット
速さ
- 柔軟性
- ハイブリッドワークフロー
- Alteryxとデータソース間のデータ転送が無い
- 処理は完全に基礎となるデータソースで行われる
柔軟性
- 基礎となるデータソースにすべてのデータが存在しない場合でも、in-dbのパワーを活用出来る
- ローカルファイルからのデータを基になるデータソースのテーブルとブレンド
ハイブリッドワークフロー
- すべてのAlteryx機能をフルに活用
In-DB Tips and Tricks
- Browse In-DBツールとData Stream Outツールの賢い使い方
- できるだけ早くデータセットを減らす
- クエリの表示方法
- HiveとImpalaの書き込みをより速く行う方法
- In-DB予測ツールの使い方
In-DB:ロードマップと今後の展望
ロードマップ
- DB内ツールセットの拡張
- Core In-DBツールの強化
- 追加データソース対応
In-DB戦略
- In-DBをよりアクセシブルに
- DB内の経験を標準の経験と同じにする
- In-DB内のソース、機能、およびツールの構築
まとめ
- In-DBツールを使うことで大幅なパフォーマンス向上が見込める
- 大量のデータを扱っている場合、In-DBを検討してみよう
- 「Tips and Tricks」も参考に
まとめ
という訳でAlteryx Inspire 2018:ブレイクアウトセッション「In-DBツールのパワーを最大限活用する方法」のレポートでした。
In-DBツールは名前の通り、データベース周りの処理をワークフローとして作り上げていく際にとても便利に扱えるツールとなっています。賢く使って行きたいですね!!
Alteryxの導入なら、クラスメソッドにおまかせください
日本初のAlteryxビジネスパートナーであるクラスメソッドが、Alteryxの導入から活用方法までサポートします。14日間の無料トライアルも実施中ですので、お気軽にご相談ください。