[参考リンク・資料公開] オンラインイベント DevIO 2020 で、監視とSRE・可観測性・ログ分析・SaaSなどなどについて話しました #devio2020

「監視・ログ分析を最初から始めるイマドキの事情と理由」と題して、その1・その2と2つの動画を公開しました。両方とも30分程度となってますので、お時間のあるときに是非ご覧下さい。

モニタリングツール特集監視サービス Developers.IO 2020 CONNECT

渡辺聖剛

2020.07.03

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

先月 6/16 から始まっているオンラインイベント、Developers.IO 2020 Connect。
みなさんはもう参加されましたでしょうか？

クラスメソッド株式会社 - YouTube

7/3、Day 6は、モダンアプリケーション開発（MAD）をテーマに開催されます。
ぼくも「イマドキの監視とは」というテーマで、30分ほどの動画を2本あげました。すこし長いですが、気の向いたときにご覧頂けると幸いです。

資料もこちらに公開しております。

話した内容について

今回のセッションでお話しした内容は、下記になります。

モダンなシステム開発・サイト運用のためには、SREの文脈にそった適切な「監視」を行う必要があること
そのためには、検知や対処を充実させるより先に、観測態勢を整える必要がある
- = 可観測性
設計段階、開発段階から監視（Monitoring）ははじめるべき
大量のデータをどのようにさばくか

話の対象が広く多岐にわたるため、自分が気になったところ・興味をおぼえたところを中心に、是非資料を参考に深掘りしていってみて下さい。

参考にした資料について

今回こちらのプレゼンテーションを行うにあたり、以下の資料から引用・参考にさせて頂きました。
ここにそのリストを掲載しつつお礼に代えさせて頂きます。

参考サイトURL

その1（混乱編）

A Conversation with Werner Vogels（※PDF）
monitor | Oxford Advanced Learner's Dictionary
“Done is better than perfect” の意味 - Akinori Machino - Medium
UNIX哲学 - Wikipedia

AWS re:Invent 2019: Build your next microservices application with modern AWS services (ENT308-S) - YouTube
- [レポート] 行き先は火星？木星？　移住計画用マイクロサービスを AWS サービスで構築・管理する #ENT308 #reinvent #newrelic | Developers.IO

4. The Three Pillars of Observability - Distributed Systems Observability [Book]
Google - Site Reliability Engineering
Best Practices for Monitoring E-Commerce Performance

Planet MySQL :: Planet MySQL - Archives - 監視とは継続的なテストである、という話 (もしくは cronlog とテストスクリプトを組み合わせた監視手法について)
DevSecOpsに関するグローバルアニュアル調査の結果を発表：ソフトウェア開発チームの役割の変化が明らかに｜GitLab Inc.のプレスリリース
AWS Well-Architected フレームワークホワイトペーパー日本語版の更新 | Amazon Web Services ブログ

その2（解決編）

Load Average はどうやって算出されているのか | TECHSCORE BLOG
リアルユーザモニタリング（RUM） vs 合成モニタリング: 顧客体験を改善するにはどうしたらいいか - New Relic公式ブログ
Webサーバ周辺、これだけおさえれば、落ちても大丈夫？：特集：システム管理の鉄則（前編） - ＠IT
「外形監視」という訳語の間違い - Webパフォーマンスについて
Black Box vs. White Box Monitoring: What You Need To Know - DevOps.com

アンスコムの例 - Wikipedia
1 可視化の重要性 | いつか役に立つかもしれない資料
Lambdaのログレベル方針について、チームで話して明文化してみた | Developers.IO
デジタル情報処理標本化定理（サンプリング定理）（※PDF）
Standing on the shoulders of giants - Wikipedia

責任共有モデル | AWS
Prometheus - Datadog
Prometheus integrations | New Relic Documentation
Amazon CloudWatch が Prometheus メトリクスのモニタリングを開始 (ベータ版)
OpenTelemetry | Effective observability requires high-quality telemetry
The OpenMetrics project — Creating a standard for exposing metrics data

AWS re:Invent 2019: Top 5 container and Kubernetes best practices (CON307-S) - YouTube
- [レポート] コンテナおよびKubernetesのベストプラクティストップ5 #reinvent #CON307 | Developers.IO
- [レポート] 「コンテナと Kubernetes のベストプラクティス TOP 5」を New Relic 的に聞いてきた #CON307 #reinvent | Developers.IO

紹介したSaaS・OSS

Datadog : クラウド時代のサーバー監視&分析サービス | Datadog
Cloud Monitoring : Cloud Monitoring | Google Cloud
Pingdom : Website Performance and Availability Monitoring | Pingdom
SignalFx : Real-Time Cloud Monitoring for Infrastructure, Microservices, Applications | SignalFx
Instana : Instana - APM for Microservice Applications
Sysdig monitor : Security, Compliance & Performance for your Devops Workflows | Sysdig
Airbreak : Full-stack Application Monitoring Software | Airbrake
errbit : errbit/errbit: The open source error catcher that's Airbrake API compliant
Epsagon : Epsagon - Applied Observability for Modern Applications
Humio : Log everything, answer anything in real time
AppDynamics : アプリケーションパフォーマンス管理、およびモニタリング | 製品 | AppDynamics
Dynatrace : クラウド・モニタリングのリーダー | Dynatrace

Prometheus : Prometheus - Monitoring system & time series database
Grafana : Grafana: The open observability platform | Grafana Labs
Zabbix : Zabbix :: The Enterprise-Class Open Source Network Monitoring Solution

書籍

宣伝

参考

資料を作成するうえで、直接引用はしなかったものの参照させてもらった資料・尺の関係で泣く泣くカットした言及へのリンクも記載します（順不同）

We are the SpaceX software team, ask us anything! : spacex
AP-101 Space Shuttle Computers - IBM
Capital One’s Cloud Journey Through the Stages of Adoption | AWS Cloud Enterprise Strategy Blog
AWS Cloud Adoption Framework
CNCF Cloud Native Trial Map - cncf/trailmap: ?TrailMap files from the cncf/landscape repo
データ可視化とは？その必要性と基本手法を解説 | FineReport

O'Reilly Japan - 入門 Prometheus
監視カメラ - Wikipedia
機械学習で精度が出ない時にやることまとめ - Qiita
機械学習によるデータ分析まわりのお話
Feature Engineering
New Relicを使って、アプリAPIの応答速度を10倍早くしました - GA technologies Tech Blog
モダンなシステムにSLI/SLOを設定するときのベストプラクティス - New Relic公式ブログ
The Future of Monitoring (2/2): The Rise of Observability
「みんなちがって、みんないい」—— 金子みすゞが詩に託した思い｜人間力・仕事力を高めるWEB chichi｜致知出版社
SLI, SLOとカオスエンジニアリング、そしてオブザーバビリティ SRE Lounge #12 - Speaker Deck
Telemetry Data 101
SRE-iously! Defining the Principles, Habits, and Practices of Site Reliability Engineering
分散トレーシングの技術選定・OSS 貢献, Stackdriver Trace での性能可視化・改善 / Distributed Tracing case study - Speaker Deck

親に向かって何だそのHG創英角ポップ体は

— eviano (@eviano76) May 21, 2014

さいごに

今回はあれもこれもと詰め込んだ結果、かなり聞きづらいセッションになってしまったという反省があります。
今後精進して、皆様に良質の情報をお届けできるよう頑張ります。

[参考リンク・資料公開] オンラインイベント DevIO 2020 で、監視とSRE・可観測性・ログ分析・SaaSなどなどについて話しました #devio2020

話した内容について

参考にした資料について

参考サイトURL

その1（混乱編）

その2（解決編）

紹介したSaaS・OSS

書籍

宣伝

参考

さいごに

クラスメソッドのエンジニアと1on1で話してみませんか？

関連記事

AWSで探す

注目のテーマ

プロダクトやサービスで探す

特集やシリーズから探す

EVENTS