« If文の作法 | トップページ | LANにウィルスがやってきた! »

2004.06.16

障害時の対応

システム開発とシステム保守を両方とも平行してやるケースというのは多いわけだが、保守の中でも障害対応というのは一番嫌な仕事のひとつ。ただし、これをうまくこなすとかえってお客様からの高い評価をいただけることもある。
システムが利用できない・レスポンスが遅い、という障害は実に頭が痛い。
私もユーザー数5,000程度のWebシステムでこうした障害を対応したことがある。このときは悪いことに故障率が非常に低く冗長化していなかった機器故障まで重なってしまい、問題の切り分けにえらい苦労した。
最終的には回線の増速によって対応できたものの、一度失ったシステムへの信頼は次世代システム切り換えまで回復することはなかった。汚点であるが、このときの対応そのものについては、一部の方から評価をいただいた。

「使えない」タイプの障害についてはとにかくユーザーは苛々している。このためひっきりなしに電話が鳴る、メールが来る、罵声を浴びせられる(^^;
一番状況を把握しているエンジニアは復旧に忙しくとても報告をする余裕がないが、それではユーザーは納得しない。ユーザー説明のためにエンジニアを押さえると復旧が遠のくので痛し痒し。
こういうときには復旧担当エンジニアとユーザーとの窓口に誰かが立って、交通整理をしてあげる必要がある。
現状の体制では、割合こういう役目が私のところに回ってくる。
とにかく情報がないことに対して苛立っているわけであるから、進展がなくとも進展はないという情報を定期的に流すことが重要だ。
無我夢中で1時間ごとに「進捗ありません」「○○の到着時間が遅れそうです」等々の情報をメールで関係各位に流した。この定期メールの存在により、それまで鳴りつづけていた電話は散発的になり、やがて鳴らなくなった。
ややもすると担当者は目前の障害対策にのみ目が行き、ユーザーはおいてけぼりになる。これはある種当然だ。
とはいえ、その上位者は適宜状況を判断し、担当者には復旧に専念させつつ、ユーザーの不満を解消していかなくてはならないということだろう。

今回のココログのレスポンス低下を見ながら、過去の自分の姿が思い起こされた(^^;

|

« If文の作法 | トップページ | LANにウィルスがやってきた! »

コメント

mixiの足跡から来ましたー。
ボクも良く似た仕事をやっているので、障害対応は一番悩まされるところです。特に最小人員で運営しているので、障害時の電話応対と障害原因特定作業の同時並行はパラドックスで、電話をかけて説明させるから原因特定ができないんじゃないか!!ってキレそうになることもあります。

こんなとき、他社はどんな風に対応してたり、日常的に準備してたりするんだろうって、ライバル調査とかそんなんじゃなくて純粋に知りたくなります。

障害なんてめったに起こらないので、忘れたことに突然やってくるのがつらいですな。特に週末や休日になぜか発生率高い。業務用だから休日は軽いはずなのに…。

投稿: おならのプーさん | 2004.06.18 00:43

おならのプーさん、どうもです。mixi経由でしたか(^^)
安定稼働していたシステムほど手薄なので何かのときに大あわて、ということってありますよね。
潤沢な保守予算があればともかく、コスト削減のあおりで常駐オペレータとかの手配もままならなくなってくると、どうしても付け焼き刃対応になってしまいますね。
とりあえずエントリーの件ではユーザーサイドの連絡網を再点検して保守側にノイズが入りにくくなるように体制変更とかを行いました。とはいえ万全には遠いですね。。。。

投稿: かっしい | 2004.06.18 09:19

某ECサイトをやっていた時に2度ほどシステムトラブルでの地獄を味わいました
1回は2ちゃんねるでリアルタイムで祭りに…
同じフロアに営業とサポートもあったので、色々な人の色々な感情が飛び交う中
冷静に状況報告することだけに努めました
ぶっちゃけ販売機会損失して会社がヤバクなるだけですし…と半ばあきらめつつ(おいおい)

別フロアに間借りしてる別会社のオランダ人の人(普段は別に話もしない)が
「オヒルカッテコヨウカ?」と言いに来てくれたのが印象に残ってます
彼も興味津々だったのでしょう

日経の「動かないコンピューター」はそういう事例の話で
「あーオレだけじゃないんだ」という安心と
「明日は我が身」という恐怖心が
一体になった複雑な感情を起こさせてくれる良い読み物だと思います
かなり前にNIFTYもファイルサーバー障害のドキュメントが取り上げられてました

投稿: | 2004.06.18 20:01

>ぽさん
「動かないコンピュータ」は私も好きです。
別件で日経コンピュータの記者さんに取材されたことありますが、ちょっとこの話題で盛り上がりました(笑)
ほかのところの失敗談などは本当に参考になりますね。「失敗学」というのは大事です。
思い出すのは辛いこともありますが、対応中は死ぬかと思ったものですが、後から思い返すと教訓がいっぱいあるものです。<ちょっと偉そうに書いてみる

投稿: かっしい | 2004.06.19 03:17

コメントを書く



(ウェブ上には掲載しません)




トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/2022/778957

この記事へのトラックバック一覧です: 障害時の対応:

» 今後のココログに望むこと・2 [むいむい星人の寝言]
 ココログナビTOPとか、お知らせココログの怒涛の更新とか、何より快適な状況を見ている限り、スタッフの対応には好感が持てますし、期待しても良いなと思えます。即応... [続きを読む]

受信: 2004.06.18 23:35

» 最前線に求められるもの。最前線に与えなければならないもの。 [shibata(hi) shokudou]
エンジニアにとっての最前線は顧客先である。 顧客先での作業はつらい。特に障害対応などだと尚更である。 顧客からの問い合わせはあるし、調べる環境はないし、やること... [続きを読む]

受信: 2004.06.30 01:55

« If文の作法 | トップページ | LANにウィルスがやってきた! »