OBServe事例)SRE/オブザーバビリティよろず相談:SLI/SLOを決めたあと、アラートをエラーバジェットの消費だけにするのは不安です
SREやオブザーバビリティについて、X-Tech5に寄せられたご相談事例を紹介します。
目次
相談者
- 大手SIerのマネージャさん
- 運用中のWebサービスにDevOps・SRE・オブザーバビリティをとりいれていく機運になっている
ご相談内容
SLOを決めたのでエラーバジェットが決まりました(SLO:Service Level Objectives=サービスレベル目標)。
エラーバジェット運用というと、アラーティングはエラーバジェットの消費だけにする、エラーバジェットがなくなったら新機能リリースは一旦止めて機能開発ではなく信頼性確保に全振りするなどが印象的です。
監視アラートの基準をエラーバジェットの消費のみにすることでアラート誤報(false positive)が減り、効果的な監視運用ができると聞いたので期待しています。しかし期待はしているものの、見逃しがすごく不安です。
監視項目はエラーバジェットだけで大丈夫なのでしょうか?
ご回答
必ずしもエラーバジェットを基準にしたアラートだけにする必要はありません。システム構成によってはSLI/SLOで表せない項目をきちんと監視する必要があります(例:自動スケールしないディスクの残容量)。
それはそれとして、SLI/SLOがなくてもアラート誤報削減や監視運用適正化はできるので、まずはそちらを行ってはいかがでしょうか。
ご相談内容からするとアラート誤報(false pisitive)が相応に発生しているようなので、そのような”受け取ったところで何も復旧対応をしないアラート”はいずれにせよ監視項目を削減できます。
このように既存の監視項目を整理・削減するときにエラーバジェットの消費をアラートするように設定しておけば、より安心して監視項目を減らし誤報を減らせますよ。
この他のarticleOBServe事例)SRE/オブザーバビリティよろず相談シリーズはこちら