オブザーバビリティ用語集 – Glossary of Observability Terms

2023年8月28日　

X-Tech5の新サービス『オブザーバビリティ運用のシステムと組織への定着を促す「OBServe」』の提供に際してオブザーバビリティ用語集を公開します。

筆者が一般的・理解しやすいと考える意味を記載しています。

厳密な定義がない用語が多く混乱しがちなので、下記に囚われず現場ごと・ステークホルダーごとに意味や範囲を確認し合ってください。

Observability（オブザーバビリティ）
- システムやサービスの稼働状況を把握できる能力を備えていること
- 備えている・いないのゼロイチではなく、実現の程度（尺度）と捉えると理解しやすい
Primary Signals
- メトリクス、ログ、トレースのこと。かつてThree Pillars（三本柱）と呼ばれていた
- 最近は MELT（Metrics：メトリクス、Events：イベント、Logs：ログ、Traces：トレース）で考えることが多い
APM（Application Performance Monitoring）
- アプリケーションプログラムのパフォーマンスをモニタリングすること、あるいはその手法
o11y
- Observabilityの略語。11はoとyの間の文字数
- 伝統的に使われてきたi18n（internationalization）やl10n（localisation）と同様のロジック
計装（Instrument）
- システムやアプリケーションに計測機構を実装し観測を実現すること
スパン
- 計測区間のこと
トレース
- 1つの処理に関連する一連のスパンのこと
メトリクス
- 観測結果のこと。主に観測項目、観測日時、観測結果のセット（例：cpu_usage, 2023/06/01 12：34：56, 10%）
- 一連のメトリクスごとに観測対象を表す属性情報も扱う（例：ホスト名：web1、インスタンスID：i-123456789、ゾーン：ap-northeast-1a）
イベント
- システム上で起こった・起こしたできごと
- ユーザログイン、外部サービス呼び出し、デプロイによるバージョンアップ、インスタンスのスケールアウトなど
テレメトリ（Telemetry）
- 収集した観測結果など。tele-は遠隔を表す
SLI（Service Level Indicator）
- サービスレベルを計測する指標。最終的に%で表す
SLO（Service Level Objective）
- SLIの達成目標値。諸事情によりSLOを多段階にして内部SLOと外部SLOを用意することもある
SLA（Service Level Agreement）
- 顧客と合意したSLI達成値
Error Buget
- 100% - SLO
Four Keys
- ソフトウェア開発チームのパフォーマンスを示す4つの指標
- Deployment frequency（デプロイの頻度：組織による正常な本番環境へのリリースの頻度）、Lead time for changes（変更のリードタイム：git commitから本番環境稼働までの所要時間）、Time to restore service（サービス復元時間：組織が本番環境での障害から回復するのにかかる時間）、Change failure rate（変更障害率：デプロイが原因で本番環境で障害が発生する割合）
- エリート DevOps チームであることを Four Keys プロジェクトで確認する | Google Cloud 公式ブログ
監視（システム監視・サービス監視）
- モニタリングのこと
- 従前からの狭義の監視は「定期的・継続的に、観測し異常を検知し復旧させること」を指していることが多く、最近の監視は「定期的・継続的に、観測しシステムの価値を維持・向上させる営みの全て」を指していることが多い
モニタリング
- 監視のこと。大人の諸事情や思いを込めて、狭義の監視を「監視」、広義の監視を「モニタリング」と呼ぶ人もいる
アラート・アラート通知
- インシデントを知らせるための通知のこと、あるいは知らせる行為
ページ・ページング
- インシデントを通知し、対応者を呼び出すこと、あるいは通知自体のこと。ページャ（ポケットベル）に由来
オンコール
- インシデントを通知し、対応者を呼び出すこと、あるいは通知自体のこと
インシデント
- 一般に障害・システム障害
リアクティブ
- 何かが起きたことをきっかけに、できごとの反応として行動すること。事後対応あるいは対症療法
プロアクティブ
- 何かが起きる前に行動すること。事前対応あるいは予防
既知の未知（Known-Unknown）
- 今までの経験・実績から問題があるとわかっている状態のこと。例：ディスク空き容量が0
未知の未知（Unknown-Unknown）
- 今までの経験・実績から問題があるとわかっていない状態のこと。初体験の異常状態
時系列データベース（TSDB：TimeSeries Database）
- 時系列データをうまく取り扱うことを志向したデータベース（DBMS）のこと
時系列データ
- 時系列を軸にしたデータ。メトリクス以外の例としては株価や川の水位
合成監視（合成モニタリング、Synthetic Monitoring）
- 複数の要素・視点を組み合わせる監視。モニタリングSaaSではヘッドレスブラウザなどで外形監視を行う機能を表すことが多い
外形監視
- 監視対象の外部から行う監視（例：別のサーバから接続できることを確認する監視）
内部監視
- 監視対象の内部から行う監視（例：サーバ上でCPU利用率などのリソースメトリクスを取得する監視）
ログ
- イベントを記録すること、あるいは記録したもの
構造化ログ
- 一定の規約に従い構造化されたログ出力のこと。JSON、JSONL、LTSVなど
デプロイ・デプロイメント
- プログラムやアセットを稼働環境に配置すること。機能フラグを利用しない場合は配置と利用開始が不可分
機能フラグ・フィーチャーフラグ
- 稼働環境上で動的に挙動を切り替える何らかの手法のこと。例：リクエストに特定のHTTPヘッダが付与された場合のみ別の処理を行う機構
- A/Bテスト、ベータリリース、Test in productionなど活用シーンは多岐にわたる
閾値（しきい値）
- 正常と異常の境界の値のこと。ディスク残容量が10GB以下で異常と判定する場合の”10GB”のこと
ディメンション
- 直訳すると次元。メトリクスに限らず一般に、データが持つ何らかの観点のこと。大抵はデータを集計したり分析する軸になる
ランブック
- 手順書。主に何かを行うための具体的な段取りや方法を記述したものを指すことが多い
- ランブックとプレイブックは用語としてさほど使い分けられていない印象がある
プレイブック
- 手順書。主に何かを成すときに何をするか・あるいは何かが起きたときにどのように対応するかを判断するための具体的な段取りや判断基準を記述したものを指すことが多い
- ランブックとプレイブックは用語としてさほど使い分けられていない印象がある
SRE
- Site Reliability Engineering。信頼性エンジニアリングという考え方・技法のこと
SREs
- Site Reliability Engineers。SREを担うエンジニアのこと
分散トレーシング
- 複数の要素をまたいでトレースすること・手法
OpenTelemetry（otel）
- テレメトリデータの観測・収集などを実現するOSSのソフトウェアやライブラリ、あるいはそれらを統括するプロジェクトのこと
- メトリクス、ログ、トレースなどテレメトリを幅広く扱うことができる
Integration
- 何らかの統合機構のこと。プラグインのようなイメージ
- DatadogのAWS Integrationであれば、AWSからのデータ収集、収集したデータをいい感じに表示するダッシュボードなどが一式になっている