OBServe事例)SRE/オブザーバビリティよろず相談:エラーバジェットをうまく運用できない
SREやオブザーバビリティについて、X-Tech5に寄せられたご相談事例を紹介します。
目次
相談者
- 大手SIerのマネージャさん
- 運用中のWebサービスにDevOps・SRE・オブザーバビリティをとりいれていく機運になっている
ご相談内容
SLOを決めたのでエラーバジェットが決まりました(SLO:Service Level Objectives=サービスレベル目標)。
エラーバジェット運用というと、アラーティングはエラーバジェットの消費だけにする、エラーバジェットがなくなったら新機能リリースは一旦止めて機能開発ではなく信頼性確保に全振りするなどが印象的です。
しかし、いざそのようなエラーバジェット運用をしようと思っても諸事情で二の足を踏んでしまいます。諸事情は”特定ユーザと約束したリリース時期”、”社内的に上層部と約束したリリース時期”、”メンバーアサイン変更のタイミング”、”リリース停止に対する他チームのコンセンサス”などです。
どうしたらよいでしょうか?
ご回答
ですよね。
まず、杓子定規に「話に聞いたエラーバジェット運用を適用」しなくてよいと思います。そこまでやれている例は聞きません。「できていない」という話はよく聞きます。
少し考え方を変えてみましょう。SLIはユーザ満足を表しているわけですから、エラーバジェットを”ユーザの堪忍袋”とも言えます。そこで”エラーバジェットがない=ユーザの離反が進んでいる”と捉えるとどうでしょう?
現代の多くのサービスでは、解約(チャーン)は非常に重要な指標になっています。意図せず解約率(チャーンレート)が大きくなっている状況は、経営陣として看過できない一大事でしょう。
このように考えると”解約率増大抑止・解約率縮小のための投資”や”解約率増大抑止・解約率縮小のためのリソース分配”を早急に開始する判断になると思います。
なお全振りではなく、投資や取り組みを開始するという判断なのもポイントです。
※もしエラーバジェットを使い切っても解約率(チャーンレート)に一切影響がないのであれば、SLIあるいはSLOを見直してもよさそうです
この他のarticleOBServe事例)SRE/オブザーバビリティよろず相談シリーズはこちら