keyboard_double_arrow_up

Blog X-Tech5エンジニアがお送りするテックブログ
SREやDevOpsをはじめ、インフラエンジニアリングの実践情報を届けします。

【実践の前に】オブザーバビリティ入門編:Observabilityと従来の監視・モニタリングの主な違いは何?

2023年8月2日 

※Observability=o11y=オブザーバビリティ=可観測性です

どちらも同ジャンルの取り組みであり、厳密な定義をもとにした言葉ではないので「同じもの(延長線上でやっていたひとはやっていた)」と言えばそれはそうだし「別次元の違うものだ」と言えばそれもそうとも言えます。

「Observability」に込められた期待値

一般的にObservabilityに込められている期待値は「インフラ / アプリケーション / クライアントサイド / サーバサイドなど区別せずに全部を、従来観測していた項目だけでなく内部挙動まで深く、本番システムの実際の動作状況や動作実績を統合して見通し分析できるようになる」ことです。

システムやサービスがObservabilityを備えて/実現しているかどうかは「ある/なし」ではなく、実現の程度で考えるべしと言われています。実現の程度を適正化していく継続的な取り組みも含めて、システムやサービスというより組織ぐるみで「Observabilityを備え実現していく」と考えるものです。

従来の監視・モニタリングとObservabilityの代表的な違い

主に以下のような観点で異なる、というのが期待されます。

従来の監視・モニタリング

オブザーバビリティ

取り扱うデータ種別

  • リソースメトリクス(例:CPU利用率)
  • システムメトリクス(例:アクセス数)
  • ログ(例:エラーログ)
  • リソースメトリクス
  • システムメトリクス
  • アプリケーションメトリクス(例:動作実績のプロファイル)
  • イベント(例:デプロイ)
  • ログ
  • トレース(例:動作追跡)

スコープ

システム(特にインフラ)の動作状態

システムに関わるもの全て。

領域はシステム(インフラ)に加えて、バックエンドアプリケーション、フロントエンドアプリケーションも。内容は動作状態・動作結果・実績、ユーザへの提供価値

データの取り扱い

対象やデータ種別ごとに個別

対象やデータ種別をまたいで統合

何に備えるか

Known-Unknown(既知の未知)に対応する

Unknown-Unknown(未知の未知)に対応する

次のステップ

Datadogを使って自分でやってみるならこちら

モニタリング・オブザーバビリティを“きちんと”やっていきたい方に向けに知識・ノウハウを詰め込みました。 Datadogを導入してはみたけれど、いままでのモニタリングツールと大差ない使い方しかしていない、アプリケーション領域・ビジネス領域まで踏み込めていない、オブザーバビリティに取り組んでいきたい方必見の文書です。

 

X-Tech5と一緒にやってみるならこちら

X-Tech5が一緒に伴走して、オブザーバビリティの導入と運用定着を目指すサービス OBServe をぜひご覧ください。

OBServe

参考書籍

オブザーバビリティ・エンジニアリング

Charity Majors、Liz Fong-Jones、George Miranda 著、大谷 和紀、山口 能迪 訳

本書は、近年のクラウドベースのソフトウェアシステム開発における設計プラクティスなどにおいて触れられる概念「オブザーバビリティ(可観測性)」に関する書籍です。オブザーバビリティとは何か、どのように役立てるのかなど、登場の背景から実践方法、組織、企業への適用といった幅広い視点で解説します。今後、ソフトウェアシステムの開発においてオブザーバビリティが果たすであろう、より大きな役割についても触れています。さらにSlackのゲスト寄稿者により、テストとデプロイプロセスへのオブザーバビリティの適用と、パイプラインによるテレメトリー管理についてのケーススタディを紹介。本書はソフトウェアに関わる多くの人々にとって今後より一般化するオブザーバビリティを知る第一歩となるでしょう。
https://www.oreilly.co.jp/books/9784814400126/

SLO サービスレベル目標―SLI、SLO、エラーバジェット導入の実践ガイド

サービスレベル目標(SLO)とは、ユーザーの満足度に強い相関があるメトリクスを用いた、開発と運用の目安となるものです。SLOに基づいた運用は、ユーザー視点で高い信頼性を持つサービスを提供する上で最も重要なプラクティスであるとともに、ビジネス指標に紐づく運用方法でもあります。本書は、SLOを導入する際に必要となる基礎概念、実装、文化を解説します。
はじめに、SLOの概要、サービスレベル指標(SLI)の設定、エラーバジェットの使い方などSLOの基本について説明します。そしてSLIとSLOの計測、確率と統計を使ったSLOの活用法、SLOを組み込むアーキテクチャやシステムについて解説します。さらに、組織内での同意の獲得やSLOの提唱など、SLOに基づくアプローチをチームや会社全体に根付かせる効果的な方法を紹介します。