keyboard_double_arrow_up

Blog X-Tech5エンジニアがお送りするテックブログ
SREやDevOpsをはじめ、インフラエンジニアリングの実践情報を届けします。

OBServe事例)SRE/オブザーバビリティよろず相談:忙しくて自動化やトイル削減が進みません

2023年9月11日 

SREやオブザーバビリティについて、X-Tech5に寄せられたご相談事例を紹介します。

相談者

  • MSP事業者のリーダーさん
  • 自社にSRE・オブザーバビリティをとりいれていく機運になっている

ご相談内容

運用技術のトレンドとしてSREに注目してきました。特に「サービスのユーザ数やシステム規模に応じて運用チームの人数がリニアに増える状況をなんとかしたい」という考え方に非常に深く共感しました。

お客さまのご要望に応えるために多くの人員を擁していますが、みんなずっと忙しいです。いまいま多忙ということもあり自動化やトイル削減が非常に魅力的ですが、手掛ける人員の余裕がなく手が回っていません。

またメンバーの中には、手順の実行を手作業ではなくソースコードで表すことへの抵抗感もあるようです。依頼をまるごとそのまま遂行することが価値であり存在意義だという考え方も一理あると思います。

どうしたら自動化やトイル削減が実現できるようになりますか?

ご回答

まず表題の”忙しい問題”(忙しくて〜が進まない)ですが、これはSREも自動化もトイル削減も関係ないです。外部環境の変化に適応するために経営資源をどう分配するかの話ですから、責任と裁量のある決裁者の責務です。決裁者が動くか、決裁者が自己変革するか、決裁者をすげ変えるか、決裁権をもぎとるか、決裁者に黙ってやるか…というあたりになってきますから、すこし物騒ですね。とはいえ外部環境の変化に対応するのは経営/事業運営の仕事ですから、SREとしてどうこうする話ではないです。なので、決裁者と対話するときは”経営/事業運営の思考・言葉”で話さなければなりません。

 

それはそれとして、現場レベルでできることを考えてみます。

現場レベルの”忙しい”に目を向けたとき、よくあるのが”緊急度が高いトラブル対応が続いて忙しい”状況です。オペミス(オペレーションミス)がおき、復旧や謝罪などの事後対応や再発防止対応に多大な労力が割かれていませんか?

人間が恒久的に実施する以上は、どれだけ練度が高くても・何重にチェックしてもオペミスが避けられません。オペミスが発生したら事後対応と再発防止が必要ですが、人間が実施している以上は”作業の再現性”は100%にはなりません。どれだけ再発防止してもオペミスが発生します。しかし自動化によって”作業の再現性”が実現できます。自動化された箇所は人的要因によるオペミスが発生しなくなります。自動テストなどを活用して”既知の未知”に対する備えを積み重ねられるので、自動化された箇所でミスが発生したとしても今後は再発しないよう確実に対処できます。

もしこのような状況に既視感があれば、自動化によって品質が積み重ねられるようになるので、全体のコントロール可能性が大きくなります。

なお”自動化”というと、作業を”コンピューターだけに”実施させると解釈するひとがいますが、人間によるチェックを併用することはあります。あえて区別するときは”完全自動化”と”半自動化”と呼び分けることがあります。

 

別の視点で忙しい問題の突破口を考えてみます。多くの場合は、たとえば”いま2人忌引になったら廃業する”ということはないでしょうから、そういうことになったと仮定して2人を2週間くらいフルアサインしてみるというのも有効な方法です。諸々のインパクトは大きいでしょうが、これも決裁者の不甲斐なさを他者がなんとかしてあけるアイデアのひとつです(古くからある「先輩が土壇場で突然風邪をひく」というやつです。わたしの場合は終電の新幹線で一緒に深夜作業の出張に行くはずの先輩が寝坊して、ひとりで行くことになりました)。
そんなわけで、わたしたちX-Tech5が伴走して”一緒に”力技で一点突破するのはよくあることです。

(このシリーズでは何度か登場したフレーズですが、一点突破のブースターやしつこく執念深く追い続けるためのペースメーカーとして、わたしたちX-Tech5のような伴走型の外部プロフェッショナルの力を使うのはいい方法だと思います。)

 

“忙しい問題”とは別に気になるのは「依頼をまるごとそのまま遂行することが価値であり存在意義だという考え方も一理ある」の部分で、社内で自分たちの提供価値がなにかの解釈がぶれています。解釈に幅があるのはよいにせよ、同じ文脈のとある行動が価値を提供するのか損なうのか解釈がぶれるのはなんとかしたいところです。事業の価値が”依頼をそのまま遂行するマンマシーン”なのか、”依頼をもとに適切な実現方法を提供するプロフェッショナル”なのか、ビジョン・ミッション・バリューを改めてすりあわせましょう。

往々にして、単に口から出た理由が「依頼をまるごとそのまま〜」であって、実態は”変化への抵抗感”だという場合があります。慣れ親しんだやりかたを変えるのに抵抗感を持つのは自然なことですから、そのひとが特別に頑なだということはありません。しかし経営/事業運営の世界では外部環境の変化に対応し続ける必要があり、できなければ自然と淘汰されます。これはSREやIT技術の話ではなく、一個人レベルで見ると”社会人として成長できるか(つまり自己変革と行動変容できるか)”、事業レベルで見ると”事業を持続的に運営できるか”という話です。

変化への抵抗は一般的な反応であり、怠惰な悪人はいないのですから、社内権力を使って行動の是非を問い変えさせるのは悪手で最終手段です。

熱意・情熱・論理・外圧など硬軟併用し、内発的動機づけも環境整備もして、成長を促します。このあたりは従業員や事業の成長のマネジメントなので、根本的に経営/事業運営の責任範囲ですね。とはいえ直接的に”他人を変える”ことはできないので、それを踏まえてやっていくのが事業の運営/経営ですよね。

 

すこし話が逸れたような感じもしますが、SREの問題ではないことをSREの問題として解決するのは無理筋なので、事業運営や経営の問題はそれ向きの方法で解決・対処していきましょう。

わたしたちX-Tech5はCEO/Founder/CTO/取締役/事業責任者などエグゼクティブ層の経験者が対応できるのが特徴的です。


この他のarticleOBServe事例)SRE/オブザーバビリティよろず相談シリーズはこちら


\SRE・オブザーバビリティよろず相談も受付中!/