[登壇レポート] 事例でわかるデータ分析基盤の活用 ~ Amazon Redshift の最新動向 #dbts2015 #be_crazy_about_db_tech
2015年9月10日〜11日に札幌で db tech showcase Sapporo が開催され、『事例でわかるデータ分析基盤の活用 ~ Amazon Redshift の最新動向』というタイトルで、Amazon Redshift とデータ解析基盤の導入事例について発表してきました。
db tech showcase といえば、DBエンジニアのガチイベントです。
発表資料
発表資料は以下となります。
データベース利用の変化
ACIDなRDBに対して、非機能要件である「可用性」や「拡張性」の高まりの中で登場したBASEなNoSQL。何でもACIDなRDBで解決するのではなく、データのアクセス要件に合致したDBを見極め、最適なサービスを組合せる事ことが求められます。AWSが提供するRDB(SQLデータベース)とNoSQLデータベースなど、データベース特性にフルマネージドのサービスついて、最適な分野は何かについて解説しました。
Amazon Redshift の解説
クラスタを構成する要素としてリーダノードと複数のコンピュートノードが存在し、コンピュートノード内のスライスが並列実行することによって線形スケールが実現されていることを解説しました。
データ分析基盤の構成要素・導入事例
データ分析基盤の構成要素と、以下の導入事例を紹介しました。
- 資生堂様 POSデータ分析基盤
- NTTドコモ様 しゃべってコンシェル データ分析基盤
- あきんどスシロー様 リアルタイム収集と分析
その他の事例紹介:導入事例
Amazon Redshift 導入のポイント
導入事例を踏まえ、Amazon Redshift 導入に抑えておくべきポイントについて解説しました。
- 主キー・ソートキーの指定
- 分散キーの選定
- 列圧縮タイプ
- 一般的なRDBとの相違点
- 同時実行数・カーソル数の最適化
Amazon Redshift 最新動向 ~ 2015 夏
ここ半年の新機能の中で特に気になるトピックについてお話しました。
- ノードタイプの名称変更・追加
- Interleaved Sortkey
- 動的ワークロードマネジメント(WLM)
その他の新機能については、以下のとおりです。
- Amazon Redshift 専用 ODBC/JDBC のリリース
- Query Visualization for Amazon Redshift
- Avroフォーマットのデータロードをサポート
- LISTAGG関数/LISTAGG Window関数
まとめ
分析対象のデータは、構造化データ、非構造化データ、ストリームデータといった違いや、データアクセス要件が異なります。それぞれ要件に合致したDBを見極め、最適なAWSのサービスを組合せることで、拡張性や可用性を確保して、コストエフェクティブなシステムを構築してください。
最後に
札幌で「データ分析基盤」や「Amazon Redshift」の話でどれだけ集まるか大変不安でしたが、当日は多くの方にお越しくださいまして誠にありがとうございました。こんなに集まっていただけるのなら、もっとガチな話をすればよかったかもしれません。セッションの後もご質問を頂いたり、ご挨拶をさせていただきましたこと感謝しております。また皆様にお会いできることを楽しみにしております。