[レポート] クラウド運用エンジニアの日常のある一日 #ENT320 #reinvent

AWS re:Invent 2019のセッション「Cloud operations engineer: A day in the life」のレポートです。

AWS re:Invent 2019

#イベントレポート

#レポート

#AWS

ニシヤマユウジ

2019.12.04

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

はじめに

こんにちは、AWS事業本部のニシヤマです。はいマスキュラー。

本記事は、スピーカーセッション「ENT320-R - [REPEAT] Cloud operations engineer: A day in the life」のレポートです

セッション概要

Are you an expert data center operations engineer looking to sharpen your AWS skills? Are you an IT operations manager looking to speed up your team's cloud learning curve for operating in a hybrid cloud environment? Are you a DevOps engineer looking to grow your operations experience? This session follows two AWS operations experts throughout their day as they solve real problems in complex, hybrid enterprise environments that include the AWS Cloud. Expect to learn actionable hacks and tricks that you would not learn in standard training classes. Receive practical advice for solving common and uncommon issues, and learn the top things our experts wish they knew when they were getting started with AWS.

AWSのエキスパートオペレータまたはマネージャーが実用的なコツを学ぶことができるセッションです。

レポート

アジェンダ

Introductions and AWS Managed Service(AMS) overview
Amazon Cloudwatch Logs Insights
The Balled of the Bakery
Disester Recovery
CloudOperationns Peoples

Introductions and AWS Managed Service(AMS) overview

AWS Managed Service(AMS)を取り巻く環境には以下の要素がある

AWSクラウドのエキスパート
自動化により支えらる
安全で準拠したランディングゾーン
継続的なコスト最適化
ベンダーロックインが無い
毎月の契約がなく、利用した分だけの価格設定

インフラ運用で自動化されているドメイン

プロビジョニング
セキュリティとコンプライアンス
モニタリング、アラート
インサイトと、コスト最適化
パッチ、バックアップ
変更管理
インシデント管理
サービス統合

シナリオ１：Amazon Cloudwatch Logs Insights

チャレンジ：ドメインユーザーからの認証のために数千のインスタンスを横断して検索する

ログストリーミング
複数アカウントのアクセスログを横断して検索する
不適切なアクセスが発生してないということの確実性
ロギング集約戦略
インフラとアプリのロギングおよび分析
費用と労力

EC2からCloudwatch Logsへログを投げ、それをCloudwatch Logs Insightで分析する

結論

常にCloudwatch Logsにログを投げる
起動時にCloudwatch Logsストリームを作成する
クエリライブラリを作成する

シナリオ2：The Balled of the Bakery

チャレンジ：「リフト＆シフト」移行からアジャイルなアジャイルインフラストラクチャの復元力への移行方法

成熟へのインタラクティブな旅
パッチ適用シナリオ
インシデント復旧シナリオ
完全自動化

AMIベーカリーアーキテクチャ/フロー

変更１：リフト＆シフト

最小の変更
シングルEC2インスタンス
インラインメンテナンス

変更2：自動パッチと再生

起動スクリプトでパッチを実施
オートスケーリンググループでインスタンスの置き換え
起動時間の増加

変更3：OSアップデートとCIインプット

アップデートのためのトリガービルド
オートスケーリンググループでインスタンスの置き換え
最新のAMI
簡単にロールバック

結論

実行状態はあなたが実行可能である必要がある
CI/CDはあなたのコード以上のものにも使用できます
AMIとスナップショットスプロールに注意してください

シナリオ3：Disester Recovery

チャレンジ：12時間で環境全体を新しい地理的コールドサイトに回復する

データバックアップ戦略と一緒にスタートする
インフラプロビジョニングを自動化する
データ復旧を自動化する
ネットワークとセキュリティのフェイルオーバー

ディザスターリカバリープロジェクト業務の内訳

計画
実行
調べる/適用する

DRフローダイアグラム

EC2からの恒久的なバックアップ環境（DBレプリケーション）
Lambdaを利用したEBSスナップショットのリージョン間コピー環境と、DRアカウントへのアカウント間共有環境
練習用の繰り返し環境

いくつかの重要なポイント

実際のDRを実行する方がテストするよりも簡単な場合がある
テスト中に本番アカウントをDRアカウントから分離して、本番環境への影響を最小限に抑える
シーケンスイベントは本当に重要
- EC2プロビジョニング
- スナップショットのコピー
- スナップショットのアタッチ
自動化はシーケンスの問題を解決する鍵です

結論

計画は鍵
試験テストが簡単、高速、安価
成功するまで繰り返す

シナリオ4：CloudOperationns Peoples

チャレンジ：クラウドオペレーターの人材戦略に関する多くの質問とフィードバックを受け取りました

スキルセット：広さ対深さ
ジェネラリスト対スペシャリスト
成長パターン：原点からの光
共同文化

従来のサイロとクラウドの幅/深さ

従来のサイロ型では役割により縦割りで部門ごとに担当者
クラウドの幅/深さでは、少数の担当者でネットワークからセキュリティの全ての範囲と役割ごとに異なる深さ

クラウド運用エンジニアのスキル

過去よりも幅広いスキル
伝統的な専門家ほど深くはない

文化の違い

新しいことを学ぶことの重要性
リスクを冒して失敗する受け入れ
実装の詳細に関する技術の基礎に関するインデックス

AWS顧客の取り組み

クラウドで移行と構築を素早く行う

AWS Professional Service：AWSの専門家によるスキルと経験でチームを補完します
AWS Managed Service：日々のAWSインフラストラクチャ管理と運用のオフロード
AWSトレーニングと証明書：組織全体でクラウドの流暢さを構築、スキルを開発し、専門知識を検証します
AWS Partoners：AWSの深い専門知識を持つAPNパートナーのグローバルネットワーク
AWS IQ：AWS認定のサードパーティエキスパートの市場
AWSサポート：プロアクティブなサポートプログラムで事後対応型の修正プログラムを越えて行く

おわりに

今やクラウド運用エンジニアの行うタスクは多岐に渡るということが理解できました。その中でも、環境構築の自動化とAutoScalingの利用、サーバのログをCloudwatch Logsに出力しCloudwatch Logs Insightsで分析を行うタスクや、バックアップ戦略の検討などが重要ということでした。

これらを実現するだけでもたくさんのAWSサービスを駆使する必要があるので、キャッチアップに励んでいきたいと思います。