keyboard_double_arrow_up

Blog X-Tech5エンジニアがお送りするテックブログ
SREやDevOpsをはじめ、インフラエンジニアリングの実践情報を届けします。

欲しいのはツール・プラクティス・キーワードではなく課題解決!X-Tech5と解決する運用課題のパターン4選 #DevOps #SRE #ProdEng

2022年10月14日 

X-Tech5はさまざまなお客さまと運用課題の解決、運用改善、運用組織改善、SRE導入、運用サービス企画をしてきましたが、どの場合も最初の一歩がなかなか難しいです。

本エントリではX-Tech5がお客さまと一緒に取り組んできた運用課題の典型的なパターン4つを紹介します。

“最初の一歩がなかなか難しい” 要因は、なにせどのパターンも最初は現実的に “事前にタスクと工数を見積もって契約する” が不可能です。それにいつどの程度の成果が出るかがお互いの状況や相性に強く依存します。

そのため準委任契約でまず3ヶ月くらいお互いのキャパシティの範囲内で始めてみて、相性を確認し、期待値をすり合わせて、問題なさそうなら契約を都度更新していきます。

X-Tech5の場合はご依頼いただくためにドキュメントを事前準備しなくて大丈夫です。なにせ進捗を出すこと(OODAループを回すこと)を意識し、いまあるドキュメントと実際の動作状況を見ていきます。

パターン1.システム・サービスの健康状態や健全さに自信がない、運用の不満・不安を取り除いて安心したい

X-Tech5は “リアルな状態を把握すること” が自信や安心の根拠になると考えています。

例:

  • システムの状態や稼働実績・ビジネス実績を示す各種データを収集・分析・活用し最新状態を把握
    • →ビジネスメトリクス、アプリケーションメトリクス、システムメトリクス、リソースメトリクス
  • システムの異常停止や動作不良を迅速に把握
    • →モニタリング、インシデントレスポンス
  • 運用のエキスパートが運用観点の抜け漏れを把握
    • →アセスメント
  • クラウドのエキスパートが不適合な用法を把握
    • →アセスメント

各種の状況を把握したら必要に応じて改善していきます。

X-Tech5が取り組みを行う場合もありますが、X-Tech5がお客さまに伴走する形で変化を実現していく場合が多いです。

パターン2.運用ミスが続き手順や工数が積み上がっている

X-Tech5の結論は “ソフトウェアの特性である「手順を正確に再現する」点を活用します” ですが、このパターンの場合はまずゴールの意識を合わせて、現状のデータを確認します。

例えば手順が20ある作業を一日100回実施している状況で、月に1回手順誤りがあるとしたら、正常率は99.95%と超高確率です。

ダブルチェックではどうか?それでもソフトウェアの100%には及びません。ならトリプルチェックでは?ある研究ではトリプルチェックでは逆に正常率が下がりました。

人力でどれだけ工夫を凝らせても、手順を正確に再現することにかけて人間はコンピュータに遠く及びません。

運用ミスをなくすためには人間による作業を0にします。

久しぶりにやる(慣れない)ことはミスしやすい、頻繁にやることは慣れた頃にミスしやすい、人間による作業をなくすための自動化にはコスト・工数がかかるなど、人間の特性やその時の諸事情を勘案して対応を検討・遂行します。

多くの場合は以下の流れになります。

  1. ミスが多い作業の結果を検証する検品機(テストプログラム)を作って運用する
  2. 回数が多い作業を省力化あるいは自動化するプログラムを作って運用する。もしくはミスが多い作業を省力化あるいは自動化するプログラムを作って運用する
  3. 必要に応じて全体にワークフローから見直す(”表計算ソフトのデータで仕様や依頼をやりとりする”など、電子化→デジタル化→DXのうち電子化しかしていないケースが多々あります)

取り組み初期は技術力もメンバーも不足しがちなので、その時期にX-Tech5が入って変革を後押し・実現します。

パターン3.システムごとに運用手順や手法がバラバラ。全体最適化してコストや品質をコントロールしたい

わかります。よくあります。X-Tech5は組織の一員として参画し、組織運営・技術の両側面の変革を支援します。

多くの場合は現場が頑張った結果として部分最適化が進んでいます。視座や責任範囲の違うため重要視する指標が違うところからボタンを掛け違えることが多いので、全体を管掌するマネジメント層の強力なリードが必要不可欠です。まずはそれぞれが重視している指標を計測して会話の土台をつくります。

システムの規模拡大・複雑化などに伴って増大する運用負荷の増加ペースをなんとか制御・抑制したいというのは、書籍SRE(サイトリライアビリティエンジニアリング)で語られたSREのモチベーションです。SREのプラクティスは参考になる・流用できるものばかりです。

“正しい「あるべき姿」”めがけて一直線に進みたいところですが、たいていはそううまく行かないので、一部から少しずつ達成して徐々に巻き込んで仲間を増やしていきます。

パターン4.運用サービスをリニューアルしたい。新しい運用サービスを企画したい

X-Tech5は企画初期の段階から、伴走型で一緒に企画・検証・実装・導入を進めていきます。

多くの場合は “現状の商材・体制・スキルの延長線上にないサービスが必要なのでいかに実現するか” と “現状の商材・体制・スキルの延長線上にないサービスは実現のハードルがとても高いので実現できないのではないか” のせめぎ合いになります。状況の制約条件が強いとユーザーのことを忘れがちになるので、ユーザーニーズ・ユーザー体験を念頭に置くよう都度ファシリテーションします。

顧客価値、マーケティング、オペレーション、財務、HRM、R&Dなどの観点でフルサイクルにどうやったらできるかを考えるのがサービス企画です。X-Tech5はもろもろをきれいに整えてから進むウォーターフォール型の進め方はアンチパターンだと考えます。

多くの場合は以下の流れになります。

  1. まず2〜3ヶ月ほど集中的にディスカッションを重ねて必要な情報収集やアイデア創発を促し、現状やゴールを整理する(方向性がすでに固まっている場合は短縮)
  2. PoCを作って仮説を検証する。週次定例などを併用する
  3. OODAループを回す

おわりに、あるいは、はじめに

改善/変革の取り組みが実現する可能性の芽は、当事者が “効果的な手法を追求していきたい” 、 “実在の課題を解決したい” と考えていることです。この2点が満たされて初めて成功の可能性が生まれます。

とはいえ、そう簡単に満場一致にはならず見切り発車になることは、、、残念ながらままあります。また思いには濃淡があるので、積極的な反対・賛成だけでなく消極的反対派や消極的賛成派もいます。変革に肯定的になってもらえるよう、取り組みの中で巻き込んでいきます。

SREというキーワードでよく語られる一連の取り組みがあります。X-Tech5は課題を中心に据えて、個社のコンテキストを踏まえて、個社の状況に合わせた手法で変革を進めていきます。とはいえこれらの課題を上手に解くにはSREのプラクティスが大変参考になります。最終的にほとんどの場合はSREのプラクティスを多く取り入れます。

事例・参考: