[レポート] クラウド運用エンジニアの日常のある一日 #ENT320 #reinvent

AWS re:Invent 2019のセッション「Cloud operations engineer: A day in the life」のレポートです。

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

はじめに

こんにちは、AWS事業本部のニシヤマです。はいマスキュラー。

本記事は、スピーカーセッション「ENT320-R - [REPEAT] Cloud operations engineer: A day in the life」のレポートです

セッション概要

Are you an expert data center operations engineer looking to sharpen your AWS skills? Are you an IT operations manager looking to speed up your team's cloud learning curve for operating in a hybrid cloud environment? Are you a DevOps engineer looking to grow your operations experience? This session follows two AWS operations experts throughout their day as they solve real problems in complex, hybrid enterprise environments that include the AWS Cloud. Expect to learn actionable hacks and tricks that you would not learn in standard training classes. Receive practical advice for solving common and uncommon issues, and learn the top things our experts wish they knew when they were getting started with AWS.

AWSのエキスパートオペレータまたはマネージャーが実用的なコツを学ぶことができるセッションです。

レポート

アジェンダ

  • Introductions and AWS Managed Service(AMS) overview
  • Amazon Cloudwatch Logs Insights
  • The Balled of the Bakery
  • Disester Recovery
  • CloudOperationns Peoples

Introductions and AWS Managed Service(AMS) overview

AWS Managed Service(AMS)を取り巻く環境には以下の要素がある

  • AWSクラウドのエキスパート
  • 自動化により支えらる
  • 安全で準拠したランディングゾーン
  • 継続的なコスト最適化
  • ベンダーロックインが無い
  • 毎月の契約がなく、利用した分だけの価格設定

インフラ運用で自動化されているドメイン

  • プロビジョニング
  • セキュリティとコンプライアンス
  • モニタリング、アラート
  • インサイトと、コスト最適化
  • パッチ、バックアップ
  • 変更管理
  • インシデント管理
  • サービス統合

シナリオ1:Amazon Cloudwatch Logs Insights

チャレンジ:ドメインユーザーからの認証のために数千のインスタンスを横断して検索する
  • ログストリーミング
  • 複数アカウントのアクセスログを横断して検索する
  • 不適切なアクセスが発生してないということの確実性

  • ロギング集約戦略

  • インフラとアプリのロギングおよび分析
  • 費用と労力

EC2からCloudwatch Logsへログを投げ、それをCloudwatch Logs Insightで分析する

結論

  • 常にCloudwatch Logsにログを投げる
  • 起動時にCloudwatch Logsストリームを作成する
  • クエリライブラリを作成する

シナリオ2:The Balled of the Bakery

チャレンジ:「リフト&シフト」移行からアジャイルなアジャイルインフラストラクチャの復元力への移行方法

  • 成熟へのインタラクティブな旅
  • パッチ適用シナリオ
  • インシデント復旧シナリオ
  • 完全自動化

AMIベーカリーアーキテクチャ/フロー

変更1:リフト&シフト
  • 最小の変更
  • シングルEC2インスタンス
  • インラインメンテナンス
変更2:自動パッチと再生
  • 起動スクリプトでパッチを実施
  • オートスケーリンググループでインスタンスの置き換え
  • 起動時間の増加
変更3:OSアップデートとCIインプット
  • アップデートのためのトリガービルド
  • オートスケーリンググループでインスタンスの置き換え
  • 最新のAMI
  • 簡単にロールバック

結論

  • 実行状態はあなたが実行可能である必要がある
  • CI/CDはあなたのコード以上のものにも使用できます
  • AMIとスナップショットスプロールに注意してください

シナリオ3:Disester Recovery

チャレンジ:12時間で環境全体を新しい地理的コールドサイトに回復する
  • データバックアップ戦略と一緒にスタートする
  • インフラプロビジョニングを自動化する
  • データ復旧を自動化する
  • ネットワークとセキュリティのフェイルオーバー
ディザスターリカバリープロジェクト業務の内訳
  • 計画
  • 実行
  • 調べる/適用する
DRフローダイアグラム

  • EC2からの恒久的なバックアップ環境(DBレプリケーション)
  • Lambdaを利用したEBSスナップショットのリージョン間コピー環境と、DRアカウントへのアカウント間共有環境
  • 練習用の繰り返し環境
いくつかの重要なポイント
  • 実際のDRを実行する方がテストするよりも簡単な場合がある
  • テスト中に本番アカウントをDRアカウントから分離して、本番環境への影響を最小限に抑える
  • シーケンスイベントは本当に重要
    • EC2プロビジョニング
    • スナップショットのコピー
    • スナップショットのアタッチ
  • 自動化はシーケンスの問題を解決する鍵です

結論

  • 計画は鍵
  • 試験テストが簡単、高速、安価
  • 成功するまで繰り返す

シナリオ4:CloudOperationns Peoples

チャレンジ:クラウドオペレーターの人材戦略に関する多くの質問とフィードバックを受け取りました
  • スキルセット:広さ対深さ
  • ジェネラリスト対スペシャリスト
  • 成長パターン:原点からの光
  • 共同文化
従来のサイロとクラウドの幅/深さ

  • 従来のサイロ型では役割により縦割りで部門ごとに担当者
  • クラウドの幅/深さでは、少数の担当者でネットワークからセキュリティの全ての範囲と役割ごとに異なる深さ
クラウド運用エンジニアのスキル
  • 過去よりも幅広いスキル
  • 伝統的な専門家ほど深くはない
文化の違い
  • 新しいことを学ぶことの重要性
  • リスクを冒して失敗する受け入れ
  • 実装の詳細に関する技術の基礎に関するインデックス
AWS顧客の取り組み
クラウドで移行と構築を素早く行う
  • AWS Professional Service:AWSの専門家によるスキルと経験でチームを補完します
  • AWS Managed Service:日々のAWSインフラストラクチャ管理と運用のオフロード
  • AWSトレーニングと証明書:組織全体でクラウドの流暢さを構築、スキルを開発し、専門知識を検証します
  • AWS Partoners:AWSの深い専門知識を持つAPNパートナーのグローバルネットワーク
  • AWS IQ:AWS認定のサードパーティエキスパートの市場
  • AWSサポート:プロアクティブなサポートプログラムで事後対応型の修正プログラムを越えて行く

おわりに

今やクラウド運用エンジニアの行うタスクは多岐に渡るということが理解できました。 その中でも、環境構築の自動化とAutoScalingの利用、サーバのログをCloudwatch Logsに出力しCloudwatch Logs Insightsで分析を行うタスクや、バックアップ戦略の検討などが重要ということでした。

これらを実現するだけでもたくさんのAWSサービスを駆使する必要があるので、キャッチアップに励んでいきたいと思います。