[レポート] New Relic University – 障害対応に追われない毎日のために。 に参加してきました。

2019.11.14

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんにちは ttaka です。

2019年11月05日に開催された「New Relic University - 障害対応に追われない毎日のために。」への参加レポートとなります。New Relic University への参加はこれで 2 回目になります。

New Relic University では講座とハンズオンが交互に行われる形式です。当日は New Relic 様にてハンズオン環境が用意されており、機能の説明のあとに実際に画面を見ながら課題をこなすことができます。触ってみたい、機能を知りたいと思ってたけど環境を構築するのがちょっと……と二の足を踏んでいた私には最高のセミナーでした。

なお、本レポートは当日いただいた資料とメモをもとに書いた内容となりますので、誤った理解や記載がある場合はご容赦ください(およびご連絡ください)。

概要

本講座では、今日から実践できるフロントからバックエンドまで観測する最新技術と障害を未然に防ぐ術をハンズオンで身につけることができます

講座のゴール

・近年のアプリケーションに必要と言われている可観測性についての理解を深める

・New Relic を使って簡単に可観測性を実現する方法を知る

・アプリケーションのエラーやパフォーマンス問題に対し、迅速に対処する方法を知る

・サーバからアプリケーションまでの統合的なパフォーマンス解析を理解する

・狼少年とならない適切なアラート設定を検討する

アプリケーションパフォーマンスの測定

New Relic APM を使ったアプリケーションの稼働状況の確認と簡単なエラーのトラブルシューティングを行いました。New Relic APM を使うことでレスポンスタイム、スループット、エラー率、トランザクションなどを可視化することができます。当日はエラー率から原因となるトランザクションを見つけ、エラー発生時のスタックトレースを観るところまでを行いました。また、どのトランザクションタイムのグラフを見てどのレイヤーでレスポンスに時間がかかっているかの確認、デプロイイベントを確認してリリース前後のパフォーマンスを比較してトラブルが発生していないかを確認しました。

Error analytics -> Error rate -> Error class から、どのトランザクションで最もエラーが発生しているのかを分析

 

Error details から、エラーの詳細(スタックトレース)を確認

サーバにログインすることなく New Relic の画面上でエラーの詳細(スタックトレース)が確認できちゃいます。

Web Transactions グラフから、どのレイヤーでどれくらいのレスポンスタイムかを確認

サンプルデータのため、ほぼ JVM のみで MySQL との色分けがないのですが、実運用であればどのレイヤーでレスポンスが遅いのかがひと目でわかります。

Deployments から最新のリリースがいつ実施されて、そのリリース前後でパーフォーマンスがどうなったかを比較

 

アプリケーションパフォーマンスとホストパフォーマンス

New Relic Infrastructure を使ったホストパフォーマンスの分析を行いました。New Relic Infrastructure を使うことでインフラの監視を行うことができます。導入方法はエージェントとクラウド連携があり、クラウド連携ではもちろん AWS に対応しています。また、エージェントにモジュールを追加することでミドルウェアのメトリクスも取得が可能です。

ホスト情報の確認

サーバにログインすることなく New Relic の画面上でホスト情報を確認できちゃいます。

OS, ミドルウェアのメトリクス確認

 

ホストイベントの確認

ホストイベントから例えばミドルウェアのアップデートが行われていたかなどが、サーバにログインすることなく New Relic の画面上で確認ができちゃいます。

ダッシュボード・アラート

New Relic ONE を使っての集約したデータの分析しおよびダッシュボードの作成、New Relic Alerts を使ったアラートの設定を行いました。当日は時間の関係でハンズオンを全てこなすことができなかったので詳細は割愛させていただきます(すいません……)が、1点講義を聞いていて New Relic Alerts で気になる機能があったので紹介させてください。

New Relic Alerts では発生したインシデントを管理画面上から確認できるのですが、検知したデータグラフとは別に自動的に関連がありそうな情報を表示してくれるそうです(表示されない場合もある)。この機能によって例えば「1 つのドメインでインシデントが発生していたけど、他のドメインもしきい値までは届いてなかったけど遅延が発生していた」など 1 つのインシデントから影響範囲や原因となるメトリクスまで見れてしまうのでは?ととても気になりました。

感想

冒頭でも書きましたが、触ってみたい、機能を知りたいと思ってたけど環境を構築するのがちょっと……と二の足を踏んでいた私には最高のセミナーでした。

セミナーの内容もいただいた資料もボリュームがあり、とても情報量が多いセミナーでした。

とても人気のあるセミナーだったので同様のテーマで追加開催が行われるとのお話でしたので、このブログを見て興味が湧いた方はセミナーに参加してみるのも良いかと思います。