OBServe事例)SRE/オブザーバビリティよろず相談:アプリケーション開発者にとってSREはどんな効果が期待できるでしょうか?
SREやオブザーバビリティについて、X-Tech5に寄せられたご相談事例を紹介します。
目次
相談者
- 大手SIerのエンジニアさん
- 運用受託中のシステムにDevOps・SRE・オブザーバビリティをとりいれていく機運になっている
- 顧客側で開発部門と運用部門がわかれており、いまのところ開発部門とは少し距離感がある
ご相談内容
お客さま側の鶴の一声で予算がつき、SREやオブザーバビリティに前向きに取り組んでいくことになりました。監視運用を担当していた流れから、インフラ側のチームがリードすることになりました。
開発部門のみなさんと対話したところ、SREやオブザーバビリティが全体感としてよい効果をもたらしそうだと共感してもらえました。
いまのところは承認してもらえたレベルなので、次の段階として行動を促したいところです。そのために期待効果を具体的に提示したいのですが、どのようなものが考えられますか?
インフラ畑でずっとやってきたため開発部門と密に関わった経験が少なく、開発をしたこともないので、いまいちリアルに想像できていません。
ご回答
いままではデプロイしたらどう動いているか想像するしかなかったものが、実態をもとにリアルにわかるようになるので、手の内感が出るし怖さが減ります。またデータをもとに着実に改善していけるようになるので自分たちの成長に役立ちます。
もっと具体的に考えてみます。
わかりやすいのは “Observability→データドリブンで改善” でしょうか。暗黙の”勘や経験”ではなくデータに基づいて判断・行動できるので、経験を学びにできるようになり、成果に繋がりやすくなります。
Observabilityツールベンダが出している事例を見るとよいと思います。
例:プロダクト開発エンジニアが実践するスキルとしての SRE | New Relic
https://newrelic.com/jp/resources/presentations/o11y-conference-2022「プロダクト開発エンジニア」にとっても辛さや不安を感じる要素
- 何がどうあったら安全なのかをわからないと怖い
- イレギュラー時にどうなるのかわからないから怖い
- リリースした瞬間問題が発覚したら怖い
- リリース後、悪い影響を出していないか不安に感じる
- 不具合が起こった時どこを見ればいいのかわからない
- (もっと言うと) どうなっていけば better なのかがわからない
稼働環境でプログラムが実際に・どのような環境のもと・どのようなデータを受け取って・どのように動いたか、あとから・外部から知ることができるのは素晴らしい効果です。そのシステムの生き字引のようなベテランエンジニアでなくとも、システムの実際の挙動が把握できるようになるのです。
開発者とSREの親和性は(一般的にも)少し勘違いがあるようで、インフラ領域の取り組みだと捉えられることが多いですが、実際のところはソフトウェアエンジニアが慣れ親しんだやりかたをフルスタック・フルサイクルに持ち込んでいるので、ソフトウェアエンジニアには非常に馴染みやすくわかりやすいと思います。結果として、開発者がフルスタックの知識を獲得する取っ掛かりにもなります。
おおくの場合、このような諸々の取り組みを通じて、リリース頻度を増やしリリースまでの期間が短くなる、リリースに伴う大障害が減る、障害発生時の復旧時間を短くなるといったあたりに至るようになります(詳しくはFour Keysを調べてみてください)。
参照:オブザーバビリティ用語集 – Glossary of Observability Terms
この他のarticleOBServe事例)SRE/オブザーバビリティよろず相談シリーズはこちら