セルフ管理 VS マネージド管理 [セッションレポート] #GoogleCloudNext

より抽象度の高い角度からGoogle Cloudを見ていきます。
2023.09.15

概要

Do it yourself VS managed Observability tooling consideration」というセッションに参加した時の、セッション内容をブログにしました。

Otterという文字起こしアプリで書き落とし、その後翻訳しながらブログにしました。
試験や実務の取り入れなどの参考にできるよう、セッションの内容になぞらえて解説してみようかと思います。

セッション内容

概要

Google CloudのプロダクトマネージャーであるKyle Madison氏とSoto氏が、クラウドを使用する際の考え方や概念について、話し合いました。
また、今回のセッションは、主にLoggingとオペレーターマネージメントに絡む人々を対象としています。

Wayfarerという顧客のケーススタディも紹介されており、Wayfarerは、クラウドにおけるオペレーションチームの運用がスタートし、Cloud Loggingを使用して、オープンソースサービスから25%の節約を達成したと紹介されています。

タイトルの通り「セルフ管理 VS マネージド管理」というテーマがどのように進化してきたかを詳細に解説しており、Google Cloudが提供する多くのツール、特にメールソフトや文書作成ツールなどといったビジネス運営に必要なものを利用することで、企業が本当に重要なもの、つまり競争上の差別化要素に注力できるようになるというメッセージを強調しています。

加えて、セルフビルドする場合には多くのコストが発生する可能性があり、重要な検討項目だと言います。

コスト

この部分では、オポチュニティコストその他のコスト、およびトイル(冗長作業)の概念について中心的に語っています。
オポチュニティコストとは、一つのことを行うために犠牲にした他の可能性の損失を意味します。企業設定では、これが非常に重要な概念となり、特に大企業の調達チームがその評価に必要なモデルを理解していることが重要です。例えば、リスクのすべての要素を評価するのに役立つモンテカルロモデルが一つの方法です。

トイル

次にSRE(Site Reliability Engineering)の概念について触れます。
主にトイルの削減の重要性を強調し、トイルは非戦略的で反応的な姿勢を持った作業で、持続価値が欠けていることを意味すると言います。

具体的には、その作業を行った結果として何も改善されなければ、それはトイルとみなされます。(実質的に、単純な自動化ができる事を手作業行うこともトイルとみなされます)

この辺りを検討する際には「GoogleのSRE本」を読むことを強く勧めています。この本では、理想的な利用率を計算する方法を説明しており、100%の稼働率が必ずしも最良の答えでないことを強調していたようです。

SRE本のURL
https://sre.google/books/

オープンソース&Prometheusとの統合とその価値


オープンソースソフトウェアは無料と認識されることが多いですが、それには実際には多くの隠れたコストが存在します。

ただ、Googleはオープンソースソフトウェアの重要性を強く信じていて、Googleは他のどの企業よりも多くの貢献をしています。(クラウドネイティブコンピューティング財団(CNCF)への寄与からも明らかであると言っていました)

これらの各概念と理論は、企業が自社のリソースをどのように最適に活用するかに影響を与え、充実した製品を提供するための考慮すべき点であると語っていました。 それが簡単ではないこと、また人的リソースや機会費用などのコストを考慮しなければならないことを指摘しています。

ここで取り上げているのは、Google CloudがKubernetesの監視のデファクトスタンダードであるPrometheusとどのような関係を築いているかです。PrometheusはGoogleが開発したオープンソースツールで、Google Cloudではそのマネージドサービスを提供しています。

Google Cloud Managed Service for Prometheus の一般提供を開始

しかし、Prometheusを自己管理する上での課題困難性について語っており、エンタープライズレベルに達すると、スケールやログの管理、そして運用のリソースへの負荷が増大することを明らかにしていました。

それに対してGoogle Cloudのアプローチは抵抗の少ない道であり、箱を開けてすぐに使えるという事を強調していて、
現実に開発者、ビジネスアナリスト、セキュリティアナリスト、プラットフォーム管理者、どの立場の人に対しても、Google Cloudは必要とするツールを提供しています。

(※箱を開けてすぐに使えるマネージドサービスが提供する利便性を強調しているのだと思いました)

また、Prometheus、Open Telemetry、Fluentdといったオープンソースとも互換性があり、それらをCloud Operationsに統合することが可能です。

Google Cloudのほとんどのサービスは「Day 0」の観察可能性を提供しており、デプロイメントした瞬間からシステムパフォーマンスや健康状態の解析、問題のトラブルシューティングを始めることができます。

最後に、Google Cloudのユーザーが得られる他の利点として、AIに焦点を当てたロードマップの恩恵を受けられることを指摘しています。
これによってAI操作が進化するにつれて、よりカスタム性の高いワークフローや自動化ワークフローを検討することが可能になります。

要するに、オープンソースソフトウェアの運用には確かに価値があるものの、その管理やスケールアップが難しく、かなりのコストを伴うことがあります。

それに対してGoogle Cloudは、そのコストを最小限に抑えながら、高度な観察可能性、互換性、スケーラビリティを提供し、オープンソースの利点を最大限に活かすことを可能にします。

まとめ

今回は技術的な内容というよりかは、ガッツリセッションの内容をなぞらえてブログにしてみました。
概要程度にとどまってしまった感じはありますが、個人的にはGoogle Cloudをより抽象的に見るいい機会になったかと思います。

今回紹介したシステムやオープンソースのサービスの中身などを深ぼれば、自ずと実務に使用できる知識が手に入るかと思います。