システム障害管理体制の構築と運用改善の効果的な方法

システム障害管理体制の構築と運用改善の効果的な方法


昨今、多くの利害関係者がネットワークに接続して情報交換や取引を行っています。そのため、一企業が引き起こすシステム障害が、社会的に大きな影響を及ぼすことや自社の評判の低下などを引き起こす可能性をはらんでいます。


1. 障害対応の優先度は、影響度と緊急度によって決まる

障害への抜本的対策を講じるための案件(いわゆる障害対応案件)を複数抱えている場合には、どの案件を優先して取り組むべきでしょうか。ISO/IEC20000(※1)では、優先度は影響度と緊急度の2点を考慮することを推奨しています。

  • 影響度:障害が影響を及ぼす顧客の数やシステムの数など、ビジネスに与える影響
  • 緊急度:インシデントが検知されてから、事業が影響を受けるまでにかかる時間

多数の障害対応案件を抱えている場合、着手の順序を着手容易性や緊急度のみで安易に判断してしまいがちですが、影響度と緊急度の双方の確認が大切です。影響度が高い障害は一般的に多くのリソースと時間がかかるため、他の案件よりも優先して着手する必要があるかもしれません。また、既知の障害回避策があるかどうかによっても対応の優先度が変わる可能性があります。

システム固有の影響度や緊急度は、事業継続計画策定時に分析する、ビジネス・インパクト分析や目標回復時間などを参考にして事前に定量化しておくことが重要です。

 

2. 障害回避策の維持・管理を行う体制を整備する

発生した障害に対し抜本的な対策が講じられるまでの間は、当面の回避策を作成し、維持・管理を行う必要があります。これらの回避策が、部門ごとにそれぞれのノウハウとして管理される場合、適切に更新されなかったり、システム部門による正式な回避策でなかったりするなどの問題がしばしば発生します。このため、システム部門による回避策情報の一元管理が必要です。

回避策の情報は、社内ポータルやヘルプデスク用のシステムにデータベースとして管理し、ユーザーやヘルプデスクから参照や検索が可能であることが必須です。また、検索・理解しやすいように初期症状(突然シャットダウンする、画面が真っ暗になるなど)を具体的に明示することも必要でしょう。

システム部門は、障害の抜本的対策が終了したかどうかを定期的に調査し、不要となった回避策は抹消し、回避策を最新の状態に維持することが必要です。

 

3. 障害の事前予防活動を行う

通常、「発生した障害を台帳管理し、抜本的な対策が講じられるまで追跡する」、といった管理が多くの企業で行われています。しかしながら、蓄積された過去のトラブル事例からトレンド分析を行い、事前予防につなげる、といった取り組みを行っているところはまだ少数にとどまっています。

ISO/IEC20000およびITIL(※2)では、このような障害の事前予防活動として、障害事象のトレンド分析を行い、「壊れやすい」要素を特定すること、再発する障害に着目することなどを例として挙げています。

トレンド分析は、発生した障害を例えば次のようなカテゴリに分類することで、傾向をつかむことができます。

  • サブシステムごとの障害件数
  • 障害原因の分類
    (要件不備、コーディング不備、作業ミス、設定不備、環境不足、原因不明、その他)
  • 障害の因子が発生したフェーズ

このようなトレンド分析を行った後、同様の事象が他システムでも発生しないかを横断的に確認し、解決策を横展開することにより、再発防止策を図ることができます。

 

4. 障害の再発防止策の策定と実施状況をモニタリングする

ISO/IEC20000やITILには記載がありませんが、担当者が障害発生後に策定する再発防止策の実行可能性について、管理者はモニタリングをする必要があります。再発防止策の策定にあたり、よく見られる問題事例として、次のようなものがあります。

  • そもそも再発防止策が検討・策定されていない状態でクローズしている事例
  • 再発防止策が抽象的な対策案(例えば「テストケースを充実させる」など)にとどまっている事例
  • 「予防的対策」より「発見的対策」に重点をおく傾向があり、テスト負荷が増加している、または実現不可能となっている事例

もちろん、同じ障害が繰り返し発生しているのであれば、再発防止策が不適切である可能性が高く、見直しを行う必要があります。

 

おわりに

システム障害をゼロにするのは困難であり、またコスト的にみて現実的ではありません。システム障害が事業に与える影響を効果的に低減するためには、発生後の障害を適切に管理し、顧客や業務への影響を極小化する「事後対処」の検討が不可欠です。企業は自らのシステム障害から学び、それを生かして障害に強くなるための体制を構築することができます。私たちは優れた先行事例に基づく、システム障害管理体制作りを支援しています。

 

脚注

※1 ITIL(※2)を元に作成されたITサービスマネジメントの国際標準規格であり、マネジメントシステムとして構成される。
※2 ITサービスマネジメントのベストプラクティスをまとめた、公開されたフレームワーク。




サマリー

内閣官房情報セキュリティセンター(NISC)が2009年に公表した第2次情報セキュリティ基本計画では、「事故前提社会」への対応力強化として、障害事態の認知・分析、情報連絡、迅速な対応・復旧などの事後対応にも目配りを行うことを強調しています。
システム障害が事業に与える影響を効果的に低減するためには、発生後の障害を適切に管理し、顧客への影響を極小化する「事後対処」の検討が不可欠です。


この記事について