SRE成功の鍵は「定点観測会」だと思っている
これは SRE Advent Calendar 2023 [シリーズ1] 8日目のエントリーです。
あなたが好きなSREのプラクティスは何ですか?
プラクティスに囚われるのはミスリードになりがちだけど、好きなものは好きでいいですよね!
わたしがは昔から運用フェーズや監視テクノロジーが好きなので、お気に入りはオブザーバビリティです。
好きなのはオブザーバビリティですがそれはそれとして、やっていく上で欠かせない、SRE成功の鍵は定点観測会だと思っています。
※わたしたちX-Tech5が提供しているSREサービスの経験と、わたしの個人的な経験をもとに書いてます
目次
定点観測会のやりかた
外形的には「週1回30-60分の定例オンラインミーティング」が定番です。
Dev にも Ops にも、できればBizにも参加してもらいます。
事前準備として誰かがざっと振り返って状況変化を発見しリストアップしておきます。網羅性を志向せず重要な変化をピックアップするのがポイントです。
Datadog / New Relicいずれの場合も大抵ダッシュボードだけでは済まないので、APMやLogなど各所を参照してリンクやスクショをwikiにペッと貼っておきます。
オブザーバビリティツールのデータ保持期間的にも週1で振り返っておくのがよいです。
システムやチームの状況に応じて、月1回にしたり、書面開催(資料+テキストディスカッション)にしたりカスタマイズします。
なぜ定点観測会が『成功の鍵』なのか
キーワードは『OODAループ』です。
迅速な継続的改善活動の考え方のひとつにOODAループ(ウーダループ)があります。
Observe→Orient→Decide→Actを高速に回すことで状況変化をいち早く掴み、迅速な適応行動やこち らからの先んじたアプローチを実現する考え方です。この変化アジリティ重視のアプローチは現代のシ ステム運用現場にとてもよく適合します。
このように改善活動の入り口は情報収集で、何かを継続的・計画的に改善し続けるとき土台になるのは計測 です。状態を観測して数値化し、時系列で比較可能にすることで、効果測定ができるようになります。
SEE ALSO:
定点観測会はユーザー動向やシステムをとりまく状況の変化のキャッチアップと、変化適応の対応を主眼に開催します。つまりOODAループを回す核にしています。
定点観測会で扱う内容は一概に「この情報は扱う」「この情報は扱わない」と定式化していませんが、重要な変化に着目し、特筆すべき変化をピックアップして共有・ディスカッションします。
例えばレイテンシーが悪化したコントローラーを探すことはありますが、顕在化してトラッカーにすでに登録されているエラーの振り返りはしません。
なおタスクを網羅的に振り返ることは絶対にしません。それをしてしまうと、わたしの中では定点観測会ではなく進捗報告会です。
個人とチームの成長を促す効果あり
まず個人の技術力が向上します(技術力=結果の期待値)。
事前準備を担う人がいちばんお得です。 Observe / Orient / Decide / Action の素案を検討するので、データの読解力や洞察力、判断力が向上します。
個人レベル横方向の成長としては、いろいろな能力や職域のメンバーが集まり同じデータで同じ話をすることで Orient / Decide の違いをまざまざと感じられ知見と世界が広がります。これはチームとしての成長でもありますね。
定期的なタッチポイントを設けてメンバー間のサイロ化や分断を防ぐ狙いもあります。
例:火曜日はハグの日 from 逃げるは恥だが役に立つ
続けていると、いろいろなロールを持つチームメンバー各位が『オブザーバビリティツール自体』や『「システムの状態を知る」こと』に対して慣れてくるのもポイントが高いです。
おわりに
『SRE成功の鍵』なーんて強気なタイトルをつけてみました。
これが必勝法というわけではないけれど、自分の体感では定点観測会が回せていると定着力・持続力が段違いです。
みなさんも定点観測会で良いSREingを!
[PR] X-Tech5のSREサービスで『今日より、一歩前へ』
SREに取り組み始めたいものの、いまいち最初の一歩が難しいなぁという場合は、弊社X-Tech5のSREサービスをご検討ください。
まずは無料相談から!。直接ご支援・相談できます。
弊社エンジニアがSREとしてチームに参加し、チームの一員として動きます。