「Webエンジニアのためのモニタリング‧オブザーバビリティ実践ガイド Datadog編」を公開!
モニタリング・オブザーバビリティを“きちんと”やっていきたい方に向けに、知識・ノウハウを詰め込んだ実践ガイドを公開しました!
システム運用に関する書籍も多数執筆している技術統括責任者 CTO 馬場の力作です!
Datadogを導入してはみたけれど、いままでのモニタリングツールと大差ない使い方しかしていない、アプリケーション領域・ビジネス領域まで踏み込めていない、オブザーバビリティに取り組んでいきたい方必見の文書です。
本書で目指しているゴールの状態
具体的には以下のことが達成できる状態を目指します。ゴールの状態に向かって段階的に実装を進めていきます。あなたの現状と合わない場合は適宜流し読みして、よきところをつまみ食いしてください。
- ユーザがシステムを快適に利用できていない状況をいち早く検出し対処を始められる
- 障害が発生したときに、文脈に関係なく、そのシステムの歴史をよく知らなくても、技術に明るければ問題発生箇所の切り分けと原因分析ができる
- 本番システムでの障害や不具合・不備の連絡を受けたとき、それが直近1週間以内のことであれば後から振り返ってデバッグし、改善に着手できる
- そのシステムの歴史を知っていても・よく知らなくても、技術に明るければ、そのシステムのホットスポットやボトルネックを発見できる
- そのシステムの歴史を知っていても・よく知らなくても、技術に明るければ、そのシステムのユーザ動向を分析できる
Datadogだけでこれらすべてを実現できはしませんが、Datadogを使い倒すことで従前のモニタリングツールでは想像できなかったような観点で運用できるようになります。
なおDatadogを “使いこなす” ことは考えないほうがよいです。Datadogを”使いこなす”のではなく、自分たちの目的のためにDatadogを“使い倒す”ことを考えましょう。
— 1 はじめに
もくじ
-
1 はじめに
- 免責事項注意事項
- 本書で目指しているゴールの状態
- 参考書籍
-
2 基礎知識編
- 最近のシステム運用の基本的な流れ
- 最近のモニタリングサービスの基本は「観測結果を集めて、集まったデータを活用する」
- Datadogの観測結果の集め方
- データを活用するために物凄く重要なこと
- アラート通知の鉄則
- Datadogの主要機能
- Datadogの(目立たないけど)重要な機能
-
3 [実践編1] 最低限の監視とメトリクス・ログ収集
- 最低限のメトリクスとログ:観測収集設定のポイント
- 必要最小限の監視:監視対象とアラート設定のポイント
-
4 [実践編2] プロアクティブ
- 定点観測会
- ログを活用する
-
5 [実践編3-1] ユーザ体験収集
- APM導入のポイント
- RUM導入のポイント
-
6 [実践編3-2] データ活用
- 例:パフォーマンスチューニング対象を特定しコストを最適化する
- 例:マルチテナントSaaSで特定テナントのレスポンスタイムやエラーレスポンス発生状況を把握しカスタマーサクセスに活用する
-
付録A Dashboard活用のポイント
-
付録B 知っておきたい便利な関数
-
7 おわりに
実践ガイドの一部抜粋
まず自分たちの目的が先で、もし目的達成のために便利な機能がDatadogにあれば、Datadogの機能を使いましょう。
![]()
諸事情(多くの場合はコスト)によりDatadogだけでなく他のツール(AWSならCloudWatch)を併用することがあります。Datadogを通じて効果的な洞察が得られるようになれば、モニタリングツールへの投資は守り主体から攻め主体に変わります。その時々の状況で適切な手法が何かは変わるので、手法もツールも柔軟に変化していくのが重要です。
— 1 はじめに
最近のモニタリングサービスは大量のデータをいい感じに紐付けて総合的に分析することに長けています。
かつてのモニタリングサービス・モニタリングツールは異常検知を主眼としたチェック志向のものがほとんどでしたが、最近のモニタリングサービス・モニタリングツールはほとんどが状況把握を主眼としたメトリクス志向です。
対象になるデータはメトリクス・ログ・プロファイル(プログラムの実行結果を追跡したもの)などで、それらを何らかの方法で紐付けてトレースにして総合的に分析できるようにしています。
つまりDatadog活用の基本は様々なデータを集めることで、活用の軸になるのはメトリクスです。
— 2 基礎知識編 最近のモニタリングサービスの基本は「観測結果を集めて、集まったデータを活用する」
Datadogの主要機能は以下のとおりです。なお前述のとおりLogsやAPMのデータはそのまま利用するだけでなく、これらのデータをもとにMetricsを生成することで、活用の幅が広がります。
Datadogの機能 用途 Metrics メトリクス収集・分析 Logs ログ収集・分析 APM(Application Performance Monitoring) トレース収集・分析(サーバサイド) RUM(Real User Monitoring) トレース収集・分析(クライアントサイド) Synthetic Tests(API Test、Browser Test) 外形監視 Monitor アラート発報 SLOs(Service Level Objectives) SLO算出 Dashboards ダッシュボード — 2 基礎知識編 Datadogの主要機能
監視・アラート通知はDatadogのMonitorで設定します。前述のとおり大前提は“通知は受け取った人が見たときに即座に行動が必要で行動可能”です。 この前提を満たさない通知は必要最小限から外れます。前提を満たせるかは体制や実行基盤の整備・投資状況によりますが、以下を必要最小限満たせていればgoodと考えましょう。
- ユーザが利用できない状況そのものが現時点で発生していることを検知できる
- – 例:外形監視での継続的な接続不可
- キャパシティ上限に達するとシステムが停止・利用不可となるものを事前に検知できる
- – 例:容量上限のあるEBSやRDSのストレージ残容量
なおCPU利用率など時間流動性の高いメトリクスが監視項目として設定されていることがありますが、多くの場合はオートスケーリングで対応すべきであり効果的な対応がなく、結局静観するだけなので、実際のところはほとんどが通知不要です。 典型的には以下の内容が必要最小限です。
— 3 [実践編1] 最低限の監視とメトリクス・ログ収集 必要最小限の監視:監視対象とアラート設定のポイント
Datadogを使い倒してプロアクティブな運用を実現するには定点観測が非常に重要です。週イチ15分からでよいので、定点観測会を定期開催すると効果的です。
定点観測会を軸にOODAループのObserve(観察)→Orient(情勢判断)→Decide(意思決定)→Act(行動)を定速で継続的に回していくと効果が高くお勧めです。
![]()
— 4 [実践編2] プロアクティブ
ダウンロードのお申し込み
入力いただいたメールアドレスにダウンロードURLをご連絡いたします。