SREやオブザーバビリティについて、X-Tech5に寄せられたご相談事例を紹介します。
相談者
- 大手SIerのエンジニアさん
- お客様の成熟度合いを踏まえて、段階的にDevOps・SRE・オブザーバビリティの提案・導入支援を行っている
ご相談内容
いざポストモーテムを書こうとすると、従来の障害報告書と同じような内容になってしまい、何が違うのかピンときていません。また、障害報告書をポストモーテムに置き換えるべきでしょうか?
ご回答
わかります。システム障害が発生した際にその原因を特定し、再発防止策を講じるという意味では、両者の内容が似通ってしまうことがあります。
その上で、両者の違いを理解するためには、それぞれの目的やアプローチの違いを押さえることが重要です。
障害報告書
障害報告書は、発生した障害の詳細を記録し、原因を特定して迅速な復旧を目指すとともに、再発防止策を講じることを目的とした報告文書です。主な読者はユーザーや上司です。
- 障害の概要(発生日時、影響範囲、復旧状況など)
- 障害の原因(技術的な要因やヒューマンエラーなど)
- 対応手順(問題発生から復旧までの流れ)
- 再発防止策(技術的な改善やプロセスの見直し)
ポストモーテム
ポストモーテムは、障害発生後に行われる詳細な分析プロセスであり、障害やインシデントを深く分析し、組織全体で学びを共有することを目的とした共有文書です。主な読者はチームメンバーです。
- インシデントの全体像を把握するための詳細な分析
- 各ステークホルダーの視点を取り入れた多面的なアプローチ
- 分析にあたっては、高い客観性を意識し、批判を行わない(当事者の心理的安全性が確保されていないと、その背後にある本当の原因に到達できない)
- 根本原因の特定と広範な改善策の提案
- チーム全体での共有、教訓(インシデント対応での学び、良かった点と悪かった点の振り返りを含む)、学習を重視
両者の違いのまとめ
- 障害報告書は経緯と結果を明らかにすることを目的にしていて、ポストモーテムは経緯と結果を踏まえて学習・改善することを目的にしている
- 障害報告書は顧客や上長など力関係が強い相手が想定読者で、ポストモーテムは現在・未来のチームメンバー含め想定読者が力関係によらない
主な目的 |
障害の迅速な復旧と再発防止 |
障害の詳細な分析と組織的な学習 |
分析の範囲 |
技術的な原因に焦点 |
多面的な視点からの分析 |
ドキュメントの内容 |
障害概要、原因、対応、再発防止策 |
障害の全体像、詳細な原因分析、広範な改善策 |
再発防止策の具体性 |
技術的な改善策が中心 |
組織的な改善策を含む |
フィードバックプロセス |
特定のプロセスなし |
定期的なフィードバックと見直し |
まとめ
ポストモーテムは、組織全体で学びを共有することを目的とし、当事者の心理的安全性が確保された状態で深く広範な分析を行います。このような分析を行うと、原因は単なる技術的な部分だけではなく、以下のような組織的な改善を要する原因に辿り着くこともあります。
- 当事者に対する評価やインセンティブが適切ではないため、障害の予兆を検知したり未然防止を講じるモチベーションが不足している
- 普段から割り込み仕事が多く、業務に集中できない環境が、障害の予兆を見落としたりバグを組み込む原因となっている
深く広範な分析を行うことで、より深い学びと本質的な再発防止が期待できますが、相応の時間とリソースが必要です。したがって、すべての障害にポストモーテムを適用するのではなく、
特に深い学びと本質的な再発防止が期待できるインシデントを対象とし、効果的に併用することが重要です。
X-Tech5では、ポストモーテムの書き方講座や組織定着のご支援も行なっています!お気軽にこちらからご相談ください。
この他の
articleOBServe事例)SRE/オブザーバビリティよろず相談シリーズはこちら
\SRE・オブザーバビリティよろず相談も受付中!/