#awssummit AWS Summit Tokyo 2013 参加レポート Day2

2013.06.17

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

_P1000882

先週6/5(水)、6/6(木)と2日間に亘って開催された『AWS Summit Tokyo 2013』。数多くの参加者来場と熱いセッション内容により大盛況のうちに幕を閉じた形となりました。イベント終了から1週間以上空いてしまいましたが、初日に引き続き2日目にも参加していたのでその時の模様をダイジェスト&会場の雰囲気も交えながらレポートして行きたいと思います。

目次

13:20~14:00 [#Tech-05] 【上級者向け】Amazon Redshiftが切り開くクラウド・データウェアハウス

_00redshift

  • 講師:片山 暁雄氏(アマゾン データ サービス ジャパン株式会社 技術統括本部 エンタープライズソリューション部 部長 / ソリューションアーキテクト)
  • 講師:八木橋 徹平氏(アマゾン データ サービス ジャパン株式会社 ソリューションアーキテクト)
AWSでは用途に応じた多彩なマネージド型のデータ・ストアが提供されており、いよいよAmazon Redshiftにより
データウェアハウスの領域にも対応しつつあります。
本セッションでは、オンプレからRedshiftへのデータ移行や運用のノウハウをご紹介します。
また、AWSにおける他のデータ管理のサービス(S3、EMR、Data Pipelineなど)との連携についてもご説明いたします。

Redshiftの概要

Amazon Redshift | アマゾン ウェブ サービス(AWS 日本語)

[SWF]http://www.youtube.com/watch?v=AUvn49gey8Y,700,560[/SWF]

  • サービスローンチ
    • 6/5より、Tokyoリージョンでも利用可能に。世界で4番目のリージョンに。
    • 他リージョン同様にhs1.large,hs1.8xlargeでクラスタが構築可能。
  • RedShift:クラウド型のデータウェアハウス。
  • 課題=オンプレ環境に於けるデータウェアハウスの課題。
    • 1.初期投資
      • 環境構築に膨大な初期投資が必要。DWHに付随するその他の投資(バックアップ・運用監視ソフトなど)
    • 2.運用管理
      • 日々のメンテナンスやバックアップ作業など
    • 3.成長予測・費用対効果
      • 導入時点で数年先のデータ増加量を見越さなくてはならない。
      • 投資に見合ったビジネスの貢献があったか=価値のあるデータ分析が出来たか。
  • クラウドに於けるマネージド/データベースの利点
    • 定型的な作業はAWSにおまかせを!
    • 皆様にはより付加価値の高いビジネスに注力して頂きたい。
  • どんなサービス?
    • 位置付け
      • 分析処理向き。
      • 一方、オンライン処理向き(Transaction)のものとしては、RDS、ElastiCache、DynamoDB等。
    • 様々なデータストアからデータの集約
      • 1.オンライントランザクション(RDS,DynamoDB)からデータを収集、S3等を経由し、RedShiftに連携可能
      • 2.データの加工を、Elastic MapReduceを遠いてRedShiftに流しこむ。
      • 3.データパイプライン
    • カラムナ型データベース
      • 分析処理向きのデータ構造。これによって集計処理に高速なパフォーマンスを出すことが出来る。
      • RDSだと必要な情報を読むのに行全体を読まないとならない。
      • redshift_columna
    • アーキテクチャ
      • クラウド型データ・ウェアハウス
      • 拡張性:数TB〜数PBまで拡張可能
      • 高速:カラムナ型、超並列計算
      • Postgresql jdbc, odbcドライバをサポート
    • クエリー
      • 全ノードに分散・並列処理
      • 全ノードのCPUが回って必要なデータをかき集めてくる、という構成。
      • leader nodeの構成表: C+のコードをコンパイルし、全ノードにばら撒いて実行
    • ロード
      • Amazon S3, DynamoDBとの連携、並列ロード。
      • データは自動的に分散・ソート。
      • ノード数に応じてスケールを行う。
    • バックアップ・リストア
      • S3への自動・増分バックアップ or オンデマンドでのバックアップ
      • バックアップ保持期間の指定
    • リサイズ
      • 新しいクラスタをバックグラウンドでプロビジョニング
      • ノード間でデータを並列コピー
      • DNSによるエンドポイントのスイッチ
    • 料金体系
      • ノード数x時間単価。リーダーノードは課金されない。

エンタープライズシステムにおけるRedshift活用ノウハウ

野村総合研究所 AWSビジネスユニット 杉田氏による事例発表。

  • Redshiftが発表、限定公開された際にNRIの方で是非検証したい、と手を挙げ、先行着手。
  • 6/5に日本初のAPNプレミアコンサルティングパートナーの1社として認定。
  • RedShiftの性能は?
    • 他のデータハウスベンダーと比較して、使えるのかどうか?→この件に関しては、SEの寿命が縮まってしまうので話せません(笑)
    • 性能比較
      • 1).巨大テーブル、500億件のデータに対する検索処理
        • 8XLノード、16コア、120GB、ストレージは16TB。それらを2,4,8ノード構成として用意し比較。
        • 結果:2ノードで43秒、4ノードで27秒、8ノードで19秒。
      • 2).1)のデータロード処理時間
        • 結果:2ノードで2時間54分、4ノードで1時間27分、8ノードで46分。
      • 3).小さなテーブル、1.2億件の検索処理
        • 結果:2ノードで3.3秒、4ノードで1.4秒、8ノードで1.8秒。
        • (集計テーブル500億件から1.2億件を集約したものを検索。一旦並列処理を行なっている事もあり、4ノード/8ノードで若干の結果の違いが出ている)
  • チューニングってどうやるの?
    • RedShiftはインデックスというものが存在しない。
    • Distribution keyに応じてスライスに配置される。
    • sortkeyを元にレコードがソートされる。
    • 結果、どれほど高速になるのか。→3)の結果、指定無し1.8秒が1.0秒に。バッチ処理も24分→16分に。
  • でも、お高いんじゃ?
    • 8XLノードを8台並べたものの5年間の累計利用料。昔のスパコン並み。
    • だいたい1億数千万クラス。
    • 構築日はほぼ不要、(Redshiftだとクリックで20分とか)維持管理SE費用、センター費用などはAWSでは不要。
  • 注意点は?
    • 不得意なデータ形式もある。
    • 工夫すれば改善は可能。Elastic MapReduceを使うデータ等
    • 簡単に作れてしまうため、統制の効かないシステムの乱立にご注意ください。
    • 簡単につくれてしまうが故に意図しない事象が散見されてしまう
  • まとめ
    • 性能は線形にスケール
    • バッチ処理も得意
    • チューニングは新たな概念で
    • 利用料課金はメリット大
    • 注意点もある

14:20~15:00 [#Tech-06] 【上級者向け】高性能インスタンスで実現するHPCクラウドの実力

_01hpc

  • 講師:松尾 康博氏(アマゾン データ サービス ジャパン株式会社 ソリューションアーキテクト)
高度かつ複雑な大規模科学技術計算・シミュレーションの分野では、オンプレミスに構築したクラスタや外部の共用計算機環境を
使うことが一般的でしたが、高度な計算が必要とするコア数は年々増加しており、よりスケーラブルな環境が求められています。
本セッションでは、クラウド上でハイパフォーマンス・コンピューティング(HPC)クラスタを構築できるHPCインスタンス群と
それらを用いたHPC事例を、性能指標と共にご紹介いたします。
  • 先日、ついにあのインスタンスが東京に。
    • cc2.8xlarge クラスタコンピュート 60.5GB RAM / 3.4TB
    • cr1.8xlarge クラスタハイメモリ 144gb RAM 2x120GB SSD

インテル株式会社 田口 栄治様による発表:

  • データ分析がよりよい社会への変化を可能に
    • 基礎科学の進化がイノベーションを可能に、医療向上を推進
    • 新たなビジネスモデルノ創出と組織改革の推進
    • 公共安定性の改善、スマートグリッドによるエネルギー効率改善
  • 分析の民主化により、ビッグデータから価値の創出
    • シリコンの能力を全ての人に
    • オープンプラットフォームの活用
    • ソフトウェアの価値を享受
  • ビッグデータを支えるインテルの立場
    • HPC 巨大なデータセットを扱うエクサススケール・コンピューティングを可能に
    • Cloud エンタープライズに対して、オープンな相互接続性を担保したクラウド構築を支援
    • Open Source ソフトウェア作成・改善への貢献とエコシステム形成を支援
  • インテルはクラウドの鍵となるオープンで標準的なビルディング・ブロックを提供
  • オンデマンド型スーパー・コンピューティング
  • ビッグデータに向けてスケールアウト型プラットフォーム性能を標準化
    • 業界をリードするコスト・パフォーマンス
    • Intelターボ・ブースト・テクノロジー 2.0:さらなる性能の向上
    • インテル AWS New Instructions:標準のAESアルゴリズムによる暗号化をハードウェアでアシスト
  • HPCワークロードで、最大1.7倍の性能向上
  • データ分析に基づくユーザー体験の好循環

そして、ここからは松尾氏によるHPC解説。

なぜ HPC on AWSなのか?

[SWF]http://www.youtube.com/watch?v=mKElyNabc0A,600,480[/SWF]

  • 研究者のジレンマ...悩ましい問題。
    • 共用計算機だと…待ち時間、スペック、コア数不足
    • 自前で計算機を用意すると…予算、場所、自前で運用管理
  • 気軽に待たずに、必要な時に必要なだけのコアで。AWSだとその辺りどうなるか。
    • データをS3にアップロード
    • 必要に応じて必要な台数でクラスタを構成。
    • ジョブが完了したらインスタンスをterminate
    • 計算結果をダウンロードし、結果の精査を行う
    • 難しくないのか?否。全てプログラムで書ける。最近だとpuppetやchefも併用して自動化。
  • コマンド1つで構成が!ジョブごとにクラスタを用意すればジョブの待ち時間ゼロ!
  • ジョブが終われば、クラスタを削除してコスト削減

クラスタインスタンスの性能

  • クラスタインスタンスとは?
    • HPC用に最適化されたEC2インスタンス
    • 高性能CPU
    • 高性能ネットワーク 低遅延、広帯域
  • 10GbE クラスタネットワーク
    • Full bisection 1-gbps
    • プレイスメントグループ
    • 1プレイスメントグループで最大220ノードを収容可能
  • プレイスメントグループの制限事項
    • ゾーンに閉じている必要がある
    • サブネットをまたげない
    • インスタンスタイプを混在出来ない

事例紹介

その他

$100分のチケットをgetして、HPCを東京で!クーポン・チケット:画面右上の『get your free trial』から登録可能。

16:20~17:00 [#Tech-08] 【上級者向け】AWSクラウドデザインパターンの実装ノウハウ

_03CDP

  • 講師:鈴木 宏康氏(アイレット株式会社 CTO)
  • 講師:玉川 憲氏(アマゾン データ サービス ジャパン株式会社 技術統括本部 本部長 / ソリューションアーキテクト)
  • 講師:片山 暁雄氏(アマゾン データ サービス ジャパン株式会社 技術統括本部 エンタープライズソリューション部 部長 / ソリューションアーキテクト)
AWSを操作するためのSDKや、インスタンスを操作するためのツールに焦点を当て、AWSクラウドデザインパターンの中から
いくつかのパターンをサンプルに、実装コードやツールの利用方法についてご説明します。

本セッションの狙い

  • 今回はSDKやツールに焦点を当てる。CDPの中から幾つかのパターンをサンプルに、実装コードやツールのりよう方法について説明。
    • パターン適用の自動化
    • APIを使った自動化スクリプトの実装ノウハウ
    • 再利用性のあるスクリプト作成

実装ノウハウの本、買っていない方は(会場の)外で売っているんで、買ってくださいw

Amazonでチェックする Amazonでチェックする

  • 現時点で公開しているもの。 :AWS-CloudDesignPattern
  • カテゴリして、整理している。
  • Cdp-overview-org
  • 最近は新しいCDPを発表するために鋭意作成中。
  • CDP niteというのをやる予定なのでお楽しみに。
  • AWSのAPI
    • サービス毎にREST形式のAPIを提供。
    • コマンドライン/SDK/IDE等、提供方式は様々。
    • APIのエンドポイントに命令を送る形で利用。
    • 詳細はこちら。:AWS SDKs & Tools

CDP実装ノウハウ -API/ツール編- (1).バックアップのパターン

玉川氏による実践デモを交えての解説。

  • システム関心事の皆様の出来事:『バックアップ』。
    • Snapshot Pattern:データのバックアップを安全に耐久性高く取っておきたい
    • EBSからスナップショット作成(GUI)手作業はめんどくさい。→instanceのIDを指定してスナップショットを作成
    • awscliを利用。
  • API呼び出しに必要な情報の修得...メタデータを利用。URL形式で値を取得する事が出来る。※詳細:Instance Metadata and User Data - Amazon Elastic Compute Cloud
    • インスタンスID
    • 認証情報
    • リージョン
    • アベイラビリティゾーン
    • AMI ID
    • インスタンスタイプ
  • (1).自らに紐づく情報(メタデータ)を見る→(2).APIを叩いて情報を動的に取る、で実現可能。
  • Cloud DI Pattern:単一のスクリプトで、インスタンスを自動的にセットアップしたい場合に適用可能。EC2のタグを用いれば、簡単にCloudDIが実現可能。

CDP実装ノウハウ -API/ツール編- (2).セキュリティのパターン

片山氏による実践デモ(動画)を交えての解説。

CDP実装ノウハウ -API/ツール編- (3).可用性(HA)のパターン

鈴木氏による実践デモ(動画)を交えての解説。

  • デモ実演:
    • 1番機を落とす→フェイルオーバー→2番機へ。
    • 多少レイテンシが遅くなる事を、デモでも確認出来る。フェイルオーバースクリプトが成功している事を確認。

このパターン、実は『CLUSTERPRO』という製品で使われている。

本セッションのまとめ(伝えたかった事)

  • パターン適用の自動化
    • パターンをベースに自動化スクリプトを実装出来る
    • 自動化・オンデマンド化でクラウドの利点がより高まる
  • スクリプト作成の際は、再利用性を高く実装
    • インスタンスIDやバックアップ間隔等の設定値は含まない
    • メタデータやタグ、describe系のAPIで設定値を取得するようにする(リフレクション)
    • タグやuserdataを使用して、起動時に設定値をセット

19:00~20:30 [#NE-01] JAWS-UG東京 in AWS Summit Tokyo 2013

DSC_0403UltraFukudome2

AWS Summit Tokyo 2013 二日目の夜、会場にてJAWS-UG東京 第16回勉強会を開催します!

2日間のイベントの締めとして行われたのが、こちらの『JAWS-UG東京』。開催前のひとときも幾つか写真に収めましたので、併せて掲載したいと思います。

_DSC_0371floor
開催前、JAWS-UG会場準備に入る前のフロア。幾らか人の入りも落ち着いていたタイミングでした。

_DSC_0379Booth_AWS
各者協賛企業様がブースを展示されているのと同様に、AWSでも数カ所においてイベントコーナーを設置。絶えず多くの人々が行き交い、交流しておりました。

_DSC_0384BoothJAWS_Before
準備中の会場座席風景。

_DSC_0395RedBullGirl
開催の前には、フロア内にレッドブルガールが登場!多くの参加者が列を成し、ReBullを痛飲しておられました。(自分も勿論頂きました!) とある情報筋によると、2日間共に登場していたようですが、そのどちらも異なるメンバー構成だったそうですw)

JAWS-UGイベント本編のタイムテーブル及び内容はこちらを参照。

JAWS-UG東京 第16回勉強会 in AWS Summit Tokyo 2013 | JAWS-UG

19:00 – 19:02 ご挨拶 東京支部代表 得上( @tottokug )
19:02 – 19:07 AWSアップデート ( @horiuchi )
19:07 – 19:22 Game Day解説 ( @milesward )
19:22 – 19:37 AWS Summit NYC vs Tokyo徹底比較 ( @kaz_goto )
19:37 – 19:42 LT枠 1「クラウドマネジメントツール Scalrの紹介」 by Scalr社CEO Sebastian Standil氏
19:42 – 19:47 LT枠 2「油断もすきもならないECU」 by クックパッド 星野さん @con_mame
19:47 – 19:52 LT枠 3「地方の歩き方」 by JAWS-UG青森支部の仙台支部長 後藤さん @egopro
19:52 – 19:57 LT枠 4「(未定)」 by サーバーワークス 大石さん @ooishi
19:57 – 20:40 AWSウルトラクイズ (@KenTamagawa @shot6 )
20:40 – 20:45 終了

そして、全体の雰囲気については以下の『フォト』レポートを御覧頂ければと思います。

#awssummit #jawsug JAWS-UG東京 第16回勉強会 in AWS Summit Tokyo 2013 フォトレポート | Developers.IO

なお、上記タイムテーブルでは冒頭挨拶は得上さんとなっておりましたが、当日は横田さんがその任を務めておられました。

jawsug_opening

また、イベントの目玉企画である『ウルトラクイズ』。今回も優勝者には豪華賞品が贈呈されていたのですが、こちらでも横田さんがあと1歩(=1問勝ち抜け)で優勝!という惜しい所まで勝ち進んでおりました。これは惜しかった〜!

ultraquiz22