keyboard_double_arrow_up

システム監視にいまいち自信がない、アラートが多くて無視している、
モニタリング・オブザーバビリティ投資が過剰な気がする・・・
モニタリングのプロフェッショナルが
ちょうどいいシステム監視を実現
モニタリングとアラート対応、監視設計を今の自分たちにちょうどいい姿にリデザインする
X-Tech5「OBServe Lite」

ITシステムやWebサービスの健康状態を把握しデータドリブンで持続的に提供/成長するにはモニタリングが必要不可欠です。昨今モニタリング/監視/オブザーバビリティのキーワードでモニタリング領域への注目が集まっていますが、どの現場でも取り組んでいる一方で、どの現場にも専門家がおらず安定した監視・運用に苦労しています。

  • アラートが多く確認のために業務がたびたび中断されてしんどい。開発生産性を取り戻したい
  • アラートが多くほとんどのアラートは無視している。大事なものを見逃しそうで怖い
  • アラート対応が「わかりそうなひとに聞く」なので負担が極端に偏っている。安心できる暮らしを実現したい
  • ツールにコストをかけているが、この投資が適切なのかよくわからない。いまいち有効な投資だという実感がない
  • 改善しようにも知見が少なく、だからといってメンバーがいちから勉強する工数をかけるほどとも思えない

今の自分たちにちょうどいいモニタリングは「これをすれば(ツールを導入すれば/プラクティスをなぞれば)すべて解決」というものではなく、サービスの稼働環境やシステム特性、あるいは組織・体制や企業文化(カルチャー)などの要素によって異なります。

X-Tech5の「OBServe Lite」でシステム監視の専門家と一緒に『今の自分たちにちょうどいい』モニタリングを実現しませんか。

サービス概要/
システム監視の価値を引き出す
ための取り組み

アラート削減

アラートの発報項目、閾値や条件、アラートレベル、集約などを見直し、アラートの発生頻度を最小限に抑えます。

現場観点では重要度の低いアラートの対応に疲弊するアラート疲れを回避し、重要なアラートの見逃しを防ぎます。 アラートによる作業の中断が減り開発体験が向上します。

事業観点ではアラート疲れからくる燃え尽き症候群や退職のリスクを軽減します。 重要なアラートの見逃しからくる事業リスクを軽減します。 アラートによる作業の中断を減らして開発生産性を取り戻し、事業開発の安定化に貢献します。

通知先の整理・厳選

通知先を整理し、必要な人にのみ、必要なタイミングにだけ適切な通知が届くようにします。

その人の出番ではないときにはその人にアラートが届かないようにするので、現場観点では情報過多によるアラート疲れや重要なアラートの見逃し、作業中断による進捗遅延や開発体験低下を防ぎます。

事業観点ではアラート削減と同じく、アラート疲れからくる燃え尽き症候群や退職のリスク、重要なアラートの見逃しからくる事業リスクを軽減します。またアラートによる作業の中断を減らして開発生産性を取り戻し、事業開発の安定化に貢献します。 また他部署のステークホルダーとの連携強化によって事業運営の安定化に繋がります。

対応手順の再整備

それぞれ監視項目ごとのアラート対応手順・対応方法を見直し、迅速・確実かつ効率的に対応できるよう改善します。

現場観点では対応するときの混乱や迷いを減らすので、対応を迅速化し対応ミスを減らします。また対応当番になったときの不安を和らげます。

事業観点では問題解決までの時間短縮により、システムの稼働時間を最大化しシステム安定稼働を促進します。 対応方法の基準ができるので対応のブレが減りアラート発生時のリスクが制御しやすくなります。また改善の起点ができるので継続的な改善の実現に寄与します。

対応体制・対応フローの再設計

対応体制とフローを見直して、インシデントコマンダーなどの役割を整理し、より効率的に対応できるようにします。

現場観点では役割の明確化で混乱が減ります。それぞれの役割ごと、インシデントコマンダーは指揮に、対応担当者は対応に集中できるようになり対応効率が向上し対応が迅速化します。また対応担当になったときに果たすべき役割や振る舞いがはっきするので不安が和らぎます。

事業観点では組織全体の対応力が向上し、迅速な問題解決によるシステムの安定運用と、サービス品質向上による顧客満足度の充実に寄与します。 対応手順の再整備と同様に基準ができるのでブレが減りアラート発生時のリスクが制御しやすくなります。また改善の起点ができるので継続的な改善の実現に寄与します。

対応自動化

適切な範囲・程度でシステムトラブルの対応を自動化し、対応迅速化と手作業によるミスを防ぎます。

現場観点では定型的なアラート対応の削減により対応負荷が軽減しヒューマンエラーが削減できます。対応の初動が早くなり所要時間が減るので、ユーザー影響が発生している期間が短くなります。

事業観点ではヒューマンエラー削減により不確実性からくる事業リスクが減ります。 定型的な繰り返し業務のための対応要員増加を抑制するので、システム規模拡大に伴う要員増加のペースを抑制し事業効率が向上します。

対応メンバーの育成

ペアワークや勉強会・ハンズオンなどを通じてメンバーの成長を促進します。それぞれのアラートや観測データが何を示しており、ユーザーのどのような行動に起因して変動するかといったデータリテラシーを養成し、全体の対応力を向上させます。

現場観点では問題解決のスピードアップと、新たな問題への対応能力の向上、トラブル対応における自信の獲得を促します。特にトラブルシューティングやパフォーマンスチューニングでは高い育成効果が期待できます。

事業観点では高い課題解決力によるシステムの安定運用と事業開発の安定化、顧客満足度の向上に寄与します。

定点観測

システムの状態を定点観測して、問題が顕在化する前に発見し対処します。定点観測レポートを作成し定点観測会を定期開催します。習熟度が高くなればSLI/SLOを取り決めて運用指針にします。

現場観点では継続的定期的に振り返ることでユーザーがシステムに与える影響の理解が深まる育成効果が非常に大きいです。アラート再発防止策のアクションアイテム対応の遅延や放置を抑止します。またトラブルの予兆検知や真に継続的な改善を実現します。

事業観点ではシステムの安定稼働により、業務の円滑な進行と顧客満足度の向上が期待されます。またSLI/SLOを取り決めて運用することで、内部品質や運用品質の適切な達成レベルを観測し、過不足のない合理的な投資の量とタイミングの実現に寄与します。

プロフェッショナル

モニタリングの専門書『Webエンジニアのための監視システム実装ガイド』、
Webパフォーマンスチューニングの専門書『達人が教えるWebパフォーマンスチューニング』の著者とエキスパートがご対応します。

技術統括責任者 馬場 俊彰

技術統括責任者 馬場 俊彰 Toshiaki Baba
電気通信大学卒業後、大手カード会社のWeb サイトを開発・運用するJavaプログラマを経て、MSP事業会社で取締役CTOとして従事。産業技術大学院大学に入学し無事修了。現在、X-Tech5のCTOへ就任。Webシステムインフラ、監視テクノロジに関する著書多数。 Amazon著者ページ

  • 監視システムとサービス監視のエキスパートエンジニア
  • 監視設計・実装だけでなく障害対応やパフォーマンスチューニングの専門家
  • CTOとして監視/モニタリング/オブザーバビリティとビジネスの最適化に従事
代表取締役 石田 知也

代表取締役 石田 知也 Tomoya Ishida
財務省入省後、電子申告基盤に関するPJに参画。コンサルティングファーム系SIerを経て、国内大手クラウドインテグレーターにエバンジェリスト·ソリューションアーキテクト·事業責任者として参画。その後、パラレルキャリアを経てX-Tech5を設立し、ユーザ体験フォーカスした運用技術を提供。

  • エンジニアリングの事業化・組織化のエキスパート
  • 運用の組織化や組織的実装を実現する専門家
  • 監視の組織的実装の再構築経験多数

ご提供事例

Webサービス提供企業様

導入前の状況

アラートが多く「いつもの、よく出ているものだな」と流しがちでした。 アラートは多いのにユーザー影響のある障害はうまく検知できておらず、ユーザーからの問い合わせで気づくことがしばしばありました。 状況のリスクや状況改善の必要性は認識してはいたものの、問い合わせ対応や機能開発にかかりきりで手を割けていませんでした。

X-Tech5がまず「いつもの」アラートを削減し、次に監視項目と閾値と手順を全面的に見直し、その後の継続的な調整を行いました。

導入後の状況

X-Tech5の取り組みにより緊急連絡用のチャットルームに対応不要のアラートが届くことはほぼなくなり、非常に健全な緊張感を持って対応できるようになりました。

また継続的な調整の中で監視を活用する方法と最適化していく段取りを体験的に習得しています。

ご提供までの流れ

リモートで打合せを2回ほど行い、お互いの相性の確認と期待値の擦り合わせを行います

ワークショップを開催します

  • お客さま→X-Tech5:現状の課題や課題感を共有いただきます
  • X-Tech5→お客さま:課題や課題感に対して”X-Tech5ならどのように考えてどうアプローチするか”を提案、ディスカッション

限られた情報をもとに少ない時間で検討・提案するため、提案のHowをそのまま採用すべきケースはそう多くありません。具体的な対処法そのものではなく、考え方や課題の見定め、課題へのアプローチの仕方がマッチするかをお互いに確認。結果にいたる構造を整えられるか、お互いに見極めます。

ご提供内容

まずは3ヶ月を目安に再設計・実装に取り組み、当面の道筋をつけます。

その後の持続性とチーム・メンバーの成長を実現するには、OODAループ(観察・状況判断・意思決定・実行)を回して継続的に改善するのがお勧めです。

  1. 1.現状把握のヒアリング、アセスメント
  2. 2.モニタリング項目の再検討
  3. 3.監視システム・ドキュメントツール・コミュニケーションツールの確認と構築/再整備
  4. 4.監視対応の体制とインシデントマネージメントシステム確認と構築/再整備
  5. 5.モニタリング結果をうけて、モニタリング項目のチューニング
  6. 6.取り組みの指標たるSLIとSLOの策定
  7. 7.定点観測会の実施
  8. 8.エグゼクティブサマリーレポート作成

お問い合せ


SRE・DevOps・オブザーバビリティ
の実現・定着で
『今日より、一歩前へ』

SREサービス

詳しくはこちら

オブザーバビリティ運用の
システムと組織への定着を促す

OBServe

詳しくはこちら

Webエンジニアのための
モニタリング・オブザーバビリティ

実践ガイド

詳しくはこちら