「Webエンジニアのためのモニタリング‧オブザーバビリティ実践ガイド New Relic編」を公開!
モニタリング・オブザーバビリティを“きちんと”やっていきたい方に向けに、知識・ノウハウを詰め込んだ実践ガイドを公開しました!
システム運用に関する書籍も多数執筆している技術統括責任者 CTO 馬場の力作です!
New Relicを導入してはみたけれど、いままでのモニタリングツールと大差ない使い方しかしていない、アプリケーション領域・ビジネス領域まで踏み込めていない、オブザーバビリティに取り組んでいきたい方必見の文書です。
本書で目指しているゴールの状態
具体的には以下のことが達成できる状態を目指します。ゴールの状態に向かって段階的に実装を進めてい きます。あなたの現状と合わない場合は適宜流し読みして、よきところをつまみ食いしてください。
- ユーザがシステムを快適に利用できていない状況をいち早く検出し対処を始められる
- 障害が発生したときに、文脈に関係なく、そのシステムの歴史をよく知らなくても、技術に明るければ問題発生箇所の切り分けと原因分析ができる
- 本番システムでの障害や不具合・不備の連絡を受けたとき、それが直近1週間以内のことであれば後から振り返ってデバッグし、改善に着手できる
- そのシステムの歴史を知っていても・よく知らなくても、技術に明るければ、そのシステムのホットスポットやボトルネックを発見できる
- そのシステムの歴史を知っていても・よく知らなくても、技術に明るければ、そのシステムのユーザ動向を分析できる
もくじ
1- はじめに
- 免責事項・注意事項
- 本書で目指しているゴールの状態
- 参考書籍
2- 基礎知識編
- 最近のシステム運用の基本的な流れ
- 最近のモニタリングサービスの基本は「観測結果を集めて、集まったデータを活用する」
- New Relicの観測結果の集め方
- データを活用するために物凄く重要なこと
- アラート通知の鉄則
- New Relicの主要機能
- New Relicの(目立たないけど)重要な機能
3- [実践編1] 最低限の監視とAPM・ログ収集
- APM導入のポイント
- APMとログ:観測・収集設定のポイント
- 必要最小限の監視:監視対象とアラート設定のポイント
4- [実践編2] プロアクティブ
- 定点観測会
- オブザーバビリティ/APMをシフトレフトしてよりプロアクティブになる
5- [実践編3-1] 一気通貫で全体を俯瞰する
- ログをメトリクスにして活用する
- Traceに紐付ける
6- [実践編3-2] データ活用
- 例:パフォーマンスチューニング対象を特定しコストを最適化する
- 例:マルチテナントSaaSで特定テナントのレスポンスタイムやエラーレスポンス発生状況を把握しカスタマーサクセスに活用する
付録A Dashboard活用のポイント
付録B 知っておきたい便利な関数
7-おわりに
実践ガイドの一部抜粋
まず自分たちの目的が先で、もし目的達成のために便利な機能がNew Relicにあれば、New Relicの機能を使いましょう。
諸事情(多くの場合はコスト)によりNew Relicだけでなく他のツール(AWSならCloudWatch)を併用することがあります。New Relicを通じて効果的な洞察が得られるようになれば、モニタリングツールへの投資は守り主体から攻め主体に変わります。その時々の状況で適切な手法が何かは変わるので、手法もツールも柔軟に変化していくのが重要です。
— 1- はじめに
データを読むうえで重要なことを軽くおさらいします。
一番大事なことは “必ず確認する” ことです。記憶や思い込みで対処せず、必ず現状を確認します。New RelicのデータはMELT(Metrics、Events、Logs、Traces)などのデータ型でNew Relicに保存されています。データ型によって利用できる機能や適用可能な処理(関数)が異なるため、自分が知りたいことがどのデータ型でNew Relicに保存されているかよく確認しましょう。
— 2- 基礎知識編 データを活用するために物凄く重要なこと
New Relicの主要機能は以下のとおりです。
New Relicの機能 用途 Query Your Data
Data explorer / Query builderいまNew Relicに保存されているデータの閲覧、NRQLクエリの実行 All Entities いまNew Relicに保存されているEntityの閲覧 APM & Services Application Performance Monitoring分析 Logs ログ収集・分析 Traces 分散トレーシング分析 Metrics & Events メトリクス・イベント分析 Alerts & AI アラート発報 Synthetic Monitoring 外形監視 Browser クライアントサイドデータ収集・分析 Mobile クライアントサイドデータ収集・分析 Service Levels SLO(Service Level Objectives)算出 Infrastructure インフラ・クラウドレイヤーのデータ収集・分析 Dashboards ダッシュボード — 2- 基礎知識編 New Relicの主要機能
オブザーバビリティ導入の初期段階では網羅性や精度の完璧さよりも、データを集めてみて肌感をつかむほうがよいです。
APMは自動計装で構わないので早い段階で導入しましょう。ログもparseが完璧でなくても構わないのでまず収集してからDrop filterを追加していきましょう。
New Relicの段階的導入においてリソースメトリクスはAPMとログより後回しでよいですが、とはいえGuided InstallしていくとAPMとログを収集する流れの中で徐々に収集が進んでいきます。リソースメトリクスが詳細に取得できているのであればそれはgoodで、予算が許すのであればデータが多くて困ることはありません。
— 3- [実践編1] 最低限の監視とAPM・ログ収集 APMとログ:観測・収集設定のポイント
New Relicを使い倒してプロアクティブな運用を実現するには定点観測が非常に重要です。週イチ15分からでよいので、定点観測会を定期開催すると効果的です。
定点観測会を軸にOODAループのObserve(観察)→Orient(情勢判断)→Decide(意思決定)→Act(行動)を定速で継続的に回していくと効果が高くお勧めです。
— 4- [実践編2] プロアクティブ
ダウンロードのお申し込み
入力いただいたメールアドレスにダウンロードURLをご連絡いたします。