keyboard_double_arrow_up

「うちのオブザーバビリティは、
今のところ伸びしろしかありません!」
X-Tech5「OBServe」で
暗中模索をスルッと突破
実地証明済みの
カタパルトフレームワークと
ベテランのエンジニアリングで
オブザーバビリティをすばやく実現し
効果を引き出す

OBServe: 実地証明済みのカタパルトフレームワークとベテランのエンジニアリング

オブザーバビリティは広く深く長く使ってこそ高い投資効果があります。うまく軌道に乗った後はまだ良いのですが、まずそこまでたどり着くのが大変です。

そこで私達は豊富な経験をもとに「オブザーバビリティを迅速に巡航速度に乗せるためのプロセス定義・ガイドライン・実装テンプレート」を定めてカタパルトフレームワークと命名しました。

X-Tech5「OBServe」のカタパルトフレームワークエンジニアリングオブザーバビリティ運用を素早く軌道に乗せましょう。

OBServe ならできる

オブザーバビリティ
難しすぎ問題を解消

まっさらな状態からモニタリング・オブザーバビリティを設計し3ヶ月で効果を実感できる運用サイクルへ。

昨今のツールは機能が物凄く多く、正直なところ何ができるのか、何をすべきなのかよくわからなかった。 またデータが大量で、正直なところ何をどう見るかよくわかっていなかったところ。

設計・実装の思考過程を共有し、ベテランエンジニアとの共同作業と定点観測会で実践経験を積み、有意義な使い方や、逆に使わなくて良い機能が腹落ち

障害を未然防止

過去一年間に発生した障害の4割強を未然防止、3割を早期対処できるように。

また定点観測会と振り返りを着実に実施して全体の1割を占めた再発障害の抑止を実現。

ベテランエンジニアとの共同作業と定点観測会で、改善サイクルを着実に続けること、毎回のサイクルで着実に成果を積み上げる取り組みを実現。

勘デバッグを卒業

多くのエンジニアがトラブルシューティングに参加・挑戦できるようになり裾野が2.5倍に拡大。

本番環境で何が起きたのかをデータで確認できるようになり、ベテランの経験と勘に頼っていたトラブルシューティングの裾野が拡大。

いままでは経験と勘の裏が取れず、エンジニアの能力に加えて文脈把握の属人性が高かったところ。 データをもとにした振り返りで多くのエンジニアが、システムに携わってから短いエンジニアでもデバッグできる能力、つまりオブザーバビリティを獲得

コスト効率のよい
パフォーマンスチューニング

パフォーマンスチューニングコンテスト上位入賞常連の熟練エンジニアとのコワークで、 UX改善/システム負荷削減/コスト削減など目的に即したパフォーマンスチューニングを実現し、パフォーマンスを4倍、コストを1/3に。 本番環境の動作実績をデータで確認できるようになり、いま必要なパフォーマンスチューニングの対象と程度が把握できるように。

OBServeで導入から定着まで強力に実現

これからのオブザーバビリティツール・プラクティス・体制を導入する場合はもちろん、導入済みのオブザーバビリティツール・プラクティス・体制でもOK!。現状ありきで柔軟に対応いたします。

どのオブザーバビリティツールでもOK!。Datadog、New Relic、Amazon CloudWatch、Google Cloud Monitoringなど多数実績があります。

導入

個人・チームがオブザーバビリティツールやプラクティスを導入して取り組み開始

成立(実践)

導入を推進した個人・チームが、ツール・プラクティスを活用し効果を実感

普及・拡大

オブザーバビリティが他のメンバーやチームに広がる

定着

社内でオブザーバビリティが当たり前になる

OBServe
ご提供内容

オブザーバビリティ
カタパルト
フレームワーク

X-Tech5の豊富な経験から生まれたオブザーバビリティ実践のプロセス定義、ガイドライン、実装テンプレートのパッケージです。

「設計・実装・運用プロセスのガイドラインおよび定義」と「計装・データ収集実装・監視実装・ログ収集・ダッシュボード・定点観測・ドキュメントのテンプレート」から構成され、ツールとしてのオブザーバビリティから、能力としてのオブザーバビリティに進化するための道筋を示します。

内容例
  • 監視仕様書、対応手順書、モニタリング実装、ログ・トレース・イベント収集定義
  • メトリクス・ログ・トレース・イベント収集実装、アプリケーション計装、監視実装
  • インシデントマネージメント設計書
  • モニタリングダッシュボード
  • SLI/SLO設計ガイド、SLI/SLO設計書
  • 定点観測会実践ガイド、定点観測会メニューテンプレート、定点観測会運用ガイド
  • ポストモーテムガイド、ポストモーテムテンプレート

エンジニアリング

オブザーバビリティカタパルトフレームワークを実践の現場に落とし込みます。 またX-Tech5のベテランエンジニアとの対話や共同作業を通じて、実践的な知識とノウハウを共有します。

モニタリング・オブザーバビリティ領域はもちろんのこと、インフラ・クラウドサービス、信頼性エンジニアリング(SRE)、トラブルシューティング、パフォーマンスチューニング、システム運用管理など、幅広い知識と高い専門性をもつプロフェッショナルが対応いたします。

内容例
  • ダッシュボードを一緒に見て実践的な解釈をすり合わせ
  • ダッシュボードの違和感を一緒に掘り下げて、裏取り技術・技能を習得
  • 障害対応・トラブルシューティング
  • パフォーマンスチューニング
  • ペアプログラミング、ペアオペレーション
  • コスト最適化
  • 勉強会、オフィスアワー

OBServe 3つのアプローチ

メンタリング

エンジニアリングに関わるあらゆることを気軽に相談できます。

お悩み事例
  • オブザーバビリティツールの使い方を直接伝えた人は使ってくれるけれどその先が広がらない
  • データをもとにビジネス観点で意義のある情報を言語化できない
  • パフォーマンス改善に踏み切るタイミングや対象がの妥当性が判断できない
  • ツールをまとめたいが合意が得られない

定点観測会

サービスの状態を定期的継続的にチェックして、サービスレベル・投資・運用稼働・モチベーションのバランスをとります。

お悩み事例
  • データはあるが見ていない。もったいない
  • 定点観測会を準備しきれず、こなす感じになっており、障害の事前抑止につなげられていない。成長機会・改善機会にできていない
  • 定点観測会を通じた指標や価値基準のすり合わせができておらず、部署間の溝が減っていない

コワーク

ベテランとのコワーク=ペアプロ・ペアオペ・ディスカッションで、実地で効率よく知見・技能を獲得します。

お悩み事例
  • 定点観測会で認識した異常を深堀りしきれない
  • 定点観測会のアクションアイテム対応が進まず溜まりがち
  • 微妙にうまく動いていないオブザーバビリティ機構を一緒にデバッグしてほしい
  • 回復性の高いリリース方式を一緒に考えて実装してほしい
  • パフォーマンスチューニングを指南してほしい

オプションサービス

オブザーバビリティやSRE、インフラ/クラウドにまつわる課題解決のご要望について、エンジニアリングからコンサルティングまで各種承ります。

現状オブザーバビリティの詳細アセスメント

SLI/SLO設計・実装

アラート設定・実装

通知先の整理・厳選

オブザーバビリティの設計および実装

対応自動化

対応手順の整備

対応体制・対応フロー設計

コード化
(IaC: Infrastructure as Code)

勉強会開催

対応メンバーの育成

ダッシュボード実装

ご提供方式

「OBServe(オブザーブ)」は、オブザーバビリティ運用を定着するまでのスピード感・予算感・お客様側のエンジニアアサイン状況に応じて、以下の3つの方式から選択いただけます。

1代走
お客様に代わり、弊社エンジニアが業務を行います
2伴走
お客様と一緒に業務を行い、弊社エンジニアがサポートします
3コーチ
お客様が業務を行い、弊社エンジニアがコーチ(質疑対応や助言)します

*当初は「代走」で進め、定着具合いを見ながら「伴走」や「コーチ」へのシフトも可能です。 

ご提供事例

ヘルスケアSaaS提供企業様

導入前の状況

ユーザーからの問い合わせに回答するために、アプリケーションがどう動いていたかを推定し把握するのに時間と工数がかかって困っていました。 以前はログとメトリクスからなんとか推定していました。

X-Tech5が伴走してNew Relicを導入し、ログ・メトリクス・トレースを一気通貫で調査し挙動を把握できるようになりました。 業務上必要な情報を集めるために必要なログやミドルウェアメトリクスが多岐にわたり網羅するのが大変でしたが、X-Tech5の支援で乗り越えました。

導入後の状況

New Relicが便利だとわかってはいるものの、導入当初は "慣れた以前の調査方法" で対処しがちでした。X-Tech5とNew Relic活用実演やハンズオンを繰り返し実施して、今ではスムーズにNew Relicを活用できるようになりました。 また以前は監視システムを障害や問い合わせありきで使っていましたが、いまはX-Tech5による定点観測会を軸にNew Relicを活用し、プロアクティブな予防的対応ができるようになりました。

問い合わせとして顕在化していないエラーやパフォーマンス問題も認識できるようになり捗っています。 Browserモニタリングも一緒に導入したのでユーザー体験が把握できるようになり、データをもとにして的確なに開発優先順位を決められるようになりました。

IoT Webサービス提供企業様

導入前の状況

Datadogを導入し活用していましたが、開発チームと協働しオブザーバビリティの取り組みを社内に広げるのに苦労していました。

他チームとの協働の軸を定点観測会に据えていて、定点観測会の準備や遂行をX-Tech5が担っています。 X-Tech5はDatadogの使い方・データの読み方だけでなく、SLOやMonitor・Logなどの監視設定、ダッシュボード更新、TerraformでのInfrastructure as Codeも担当しています。

導入後の状況

定点観測会が継続的に開催できており、関係者の継続的なタッチポイントになっています。 コストやパフォーマンスを振り返る絶好の機会にもなっていて、健全なサービス運営を支えています。

ご提供までの流れ

リモートで打合せを2回ほど行い、お互いの相性の確認と期待値の擦り合わせを行います

ワークショップを開催します

  • お客さま→X-Tech5:現状の課題や課題感を共有いただきます
  • X-Tech5→お客さま:課題や課題感に対して”X-Tech5ならどのように考えてどうアプローチするか”を提案、ディスカッション

限られた情報をもとに少ない時間で検討・提案するため、提案のHowをそのまま採用すべきケースはそう多くありません。具体的な対処法そのものではなく、考え方や課題の見定め、課題へのアプローチの仕方がマッチするかをお互いに確認。結果にいたる構造を整えられるか、お互いに見極めます。

ご提供パターン

始めの3ヶ月で道筋をつける典型パターンの場合


0ヶ月目

  • キックオフミーティングを行いご提供開始です。
  • 事前に閲覧可能な資料があればいただいて拝見します。

1ヶ月目

  • ソースコード、営業資料、設計資料、開発資料、稼働環境、既存の監視機構のアクセス権をいただき状況を調査します。
  • 現状の不満・不安を深くお伺いして、改善サイクルで正のフィードバックループを実現する道筋をたてます。
  • 特に現状の定点観測の内容・進捗状況がポイントです。
  • 定点観測会の型がすでにあれば、まずは現状に沿った定点観測会を行います。なければ次月開催を目指します。

2ヶ月目

  • 1ヶ月目の状況を踏まえて改善と定点観測会を行います。
  • OODAループを回す実感を得ていただきます。
  • 定着までのステップをひとつ進めるための具体的な成果(Small Quick Win)を目指します。
  • コワークで「いままで得られなかった自信」を得ていただきます。

3ヶ月目

  • 1ヶ月目・2ヶ月目の改善サイクルの運用結果を踏まえて改善と定点観測会を行います。
  • 今後に向けて改善サイクルを継続するための具体策を検討します。

対応ツール

  • チャット: Slack、Teamsなど
  • ビデオ会議: Google Meet、Zoomなど
  • チケット: Backlog、Jira、GitHubなど
  • 監視サービス: Datadog、New Relic、Amazon CloudWatch、Google Cloud Monitoring、Sentry、Mackerel、Nagios、Zabbixなどなんでも

お問い合わせ

Webエンジニアのための
モニタリング・オブザーバビリティ

実践ガイド

詳しくはこちら