
僕のSLOとNew Relic by NRUG Vol.13に参加しました!
こんにちは。ゲームソリューション部の出村です。
先日New Relicユーザーグループのオンラインミーティングが開催されました。今回は、そこで行われたセッションについて、ご紹介していきます。
New Relicユーザーグループについて
New Relicユーザーグループ(NRUG)は、New Relicを活用しているユーザーが集まり、知見を共有するコミュニティです。勉強会が定期的にオフラインやオンラインで開催されており、最新の情報や活用事例を学ぶことができます。今回の募集や内容については僕のSLOとNew Relic by NRUG Vol.13に記載されています。New Relicに興味がある方、他の方がどのように使われているか気になる方は、次回の開催時にぜひ参加してみてください。
NRUG vol.13でのセッション内容について
今回の勉強会では、前半にNew Relic Now+で紹介された新機能についての説明があり、後半はSLI/SLO(Service Level Indicator/Service Level Objective)に関する3つのセッションが行われました。
New RelicではSLI/SLOに関して定義や通知などが可能ですが、その際にどの指標を使うか、しきい値をどう設定するかは、各企業の事業内容によって異なります。今回のセッションでは、各企業がどのような指標を用いて運用しているかが発表されました。
ここでは、発表されたセッションはすべて有意義なものでしたが、このエントリーでは「年次最大イベントNew Relic Now+発表の新機能速報」と「みんなで育てるNewsPicksのSLOについて述べていく」のセッションの概要などを書いていきます。
「New Relic Now+ 新機能アップデート」について
このセッションはNew Relicの清水さんによるもので、今後の機能開発の方向性や、新しい機能について話がありました。毎回のことながら、清水さんの熱意あふれるトークが印象的でした(発表スライドはこちら)。
セッションの前半では、New Relicのこれまでと、これからのビジョンについて話しがありました。将来的にはAIがエージェントとして自律的に動作し、運用者の負担を減らす方向に進化する未来を描いているようです。YouTubeにイメージ動画が公開されているので、そちらをみるとよりイメージが深まるでしょう。
セッションの後半では、New Relicの15個の新機能についての説明がありました。
すべての機能については、スライドで確認していただくとして、個人的に便利だと感じた機能をいくつかご紹介します:
Database Performance
インフラからデータベースの性能を管理・分析できる機能です。APM(Application Performance Monitoring)を導入せずとも、スロークエリを収集することができます。MySQL,PostgreSQL、MSSQLに対応してるので活用できるプロジェクトは多いでしょう。
RDBMSはパフォーマンス調査の対象に必ず含まれるため、この機能によって迅速に性能調査が可能になります。Database Performance Monitoring | New Relicでも説明がみられます。
Public Dashboards
New Relicのユーザーでなくても特定の情報をダッシュボードを共有できる機能です。開発や運用しているチームメンバー以外にもデータを閲覧してもらうのに便利な機能です。例えば経営層など決定権者にサービスに関わる重要な指標をみてもらう場合に活用できます。Share dashboards and charts publicly | New Relic Documentationに詳細な説明があります。
Cloud Cost Intelligence
クラウドコストをリアルタイムに分析し、コスト最適化の判断を迅速に行える機能です。現在はクラウドの利用料金は1日後にわかりますが、このサービスを利用することでリソース状況からリアルタイムにコストを予測することができます。コストの見直し、最適化がすぐに着手できるようになります。
また、エンジニアや運営メンバーなどチームメンバー全員が同じ情報をみながら意思決定できます。Cloud Cost Intelligence | New Relicに詳細な説明があります。
Response Intelligence
インシデント(障害)の影響分析や対応方法をAIが提示し、対応を迅速化する機能です。これまでは様々なメトリクスを見て人間が判断する必要があり、ノウハウのある人材でないと適切な判断が難しく、属人性が高くなりがちでした。AIを活用することで属人性を排除し、より多くの人が業務を担当できるようになります。障害対応も「特定の担当者の判断待ち」という状況がなくなり、より迅速に対応できるようになるでしょう。Response intelligence with New Relic AI | New Relic Documentationに詳細な説明があります。
Predictions
蓄積したデータから将来の状態を予測する機能です。個人の経験に基づく判断ではなく、AIが客観的に予測を行います。これも属人性が高くなりがちな業務をAIが代行することで、より公平で正確な評価が可能になります。Predictive capability | New Relic Documentationに詳細な説明があります。
「みんなで育てるNewsPicksのSLO」について
このセッションでは、NewsPicksにおけるSLO運用についての話がありました。スライドはこちらに公開されています。
NewsPicksではSREチーム(Site Reliability Engineering:サイト信頼性エンジニアリングを担当するチーム)は3人と小規模です。そして、SREチームが一括で監視するといった方法をとらず、SLOの運用は開発チーム自らが行っているとのことです。
その中でAPMのエンドポイント毎に監視を特化させている点が解説されていました。これは過去にユーザー体験の悪化を検知できなかった反省から導入された方法です。サーバーがSLOに準拠して稼働しているかを確認し、準拠していなければSlackに通知を送る仕組みになっています。性能劣化が発生した場合は、担当チームが原因を調査し、変更を加えたチームへ通知します。
また、SLOアラートの運用にも工夫があります。アラートが頻繁に発生すると、SLOへの不信感が生まれるため、適切な頻度に調整しています。例えば、夜間のレイテンシーアラートは通知しないようにしています。これは、夜間は利用者が少ないためサーバー台数を減らしており、パフォーマンスが一時的に低下することが想定されているからです。
チーム間の協力も重要視されており、不足している部分があれば他チームの協力を仰ぐ文化があるようです。各担当チームがユーザー体験を最優先に考え、SLOを運用している様子が伝わってきました。
運用チームメンバーでSLOの運用を行う以上、SLOの監視疲れなど負荷がかからないような運用方法をとっている様子です。
まとめ
今回のNew Relicユーザーグループミーティングを通じて、New Relicの今後の方向性が見えてきました。AIを活用した自律的な運用支援は、非常にわくわくする未来です。また、各企業がどのようにSLOに取り組んでいるかについての理解も深まりました。
New Relicを活用することで、システム運用のさらなる効率化やユーザー体験の向上に貢献できるでしょう。