EYとは、アーンスト・アンド・ヤング・グローバル・リミテッドのグローバルネットワークであり、単体、もしくは複数のメンバーファームを指し、各メンバーファームは法的に独立した組織です。アーンスト・アンド・ヤング・グローバル・リミテッドは、英国の保証有限責任会社であり、顧客サービスは提供していません。
障害への抜本的対策を講じるための案件(いわゆる障害対応案件)を複数抱えている場合には、どの案件を優先して取り組むべきでしょうか。ISO/IEC20000(※1)では、優先度は影響度と緊急度の2点を考慮することを推奨しています。
多数の障害対応案件を抱えている場合、着手の順序を着手容易性や緊急度のみで安易に判断してしまいがちですが、影響度と緊急度の双方の確認が大切です。影響度が高い障害は一般的に多くのリソースと時間がかかるため、他の案件よりも優先して着手する必要があるかもしれません。また、既知の障害回避策があるかどうかによっても対応の優先度が変わる可能性があります。
システム固有の影響度や緊急度は、事業継続計画策定時に分析する、ビジネス・インパクト分析や目標回復時間などを参考にして事前に定量化しておくことが重要です。
発生した障害に対し抜本的な対策が講じられるまでの間は、当面の回避策を作成し、維持・管理を行う必要があります。これらの回避策が、部門ごとにそれぞれのノウハウとして管理される場合、適切に更新されなかったり、システム部門による正式な回避策でなかったりするなどの問題がしばしば発生します。このため、システム部門による回避策情報の一元管理が必要です。
回避策の情報は、社内ポータルやヘルプデスク用のシステムにデータベースとして管理し、ユーザーやヘルプデスクから参照や検索が可能であることが必須です。また、検索・理解しやすいように初期症状(突然シャットダウンする、画面が真っ暗になるなど)を具体的に明示することも必要でしょう。
システム部門は、障害の抜本的対策が終了したかどうかを定期的に調査し、不要となった回避策は抹消し、回避策を最新の状態に維持することが必要です。
通常、「発生した障害を台帳管理し、抜本的な対策が講じられるまで追跡する」、といった管理が多くの企業で行われています。しかしながら、蓄積された過去のトラブル事例からトレンド分析を行い、事前予防につなげる、といった取り組みを行っているところはまだ少数にとどまっています。
ISO/IEC20000およびITIL(※2)では、このような障害の事前予防活動として、障害事象のトレンド分析を行い、「壊れやすい」要素を特定すること、再発する障害に着目することなどを例として挙げています。
トレンド分析は、発生した障害を例えば次のようなカテゴリに分類することで、傾向をつかむことができます。
このようなトレンド分析を行った後、同様の事象が他システムでも発生しないかを横断的に確認し、解決策を横展開することにより、再発防止策を図ることができます。
ISO/IEC20000やITILには記載がありませんが、担当者が障害発生後に策定する再発防止策の実行可能性について、管理者はモニタリングをする必要があります。再発防止策の策定にあたり、よく見られる問題事例として、次のようなものがあります。
もちろん、同じ障害が繰り返し発生しているのであれば、再発防止策が不適切である可能性が高く、見直しを行う必要があります。
システム障害をゼロにするのは困難であり、またコスト的にみて現実的ではありません。システム障害が事業に与える影響を効果的に低減するためには、発生後の障害を適切に管理し、顧客や業務への影響を極小化する「事後対処」の検討が不可欠です。企業は自らのシステム障害から学び、それを生かして障害に強くなるための体制を構築することができます。私たちは優れた先行事例に基づく、システム障害管理体制作りを支援しています。
脚注
※1 ITIL(※2)を元に作成されたITサービスマネジメントの国際標準規格であり、マネジメントシステムとして構成される。
※2 ITサービスマネジメントのベストプラクティスをまとめた、公開されたフレームワーク。
内閣官房情報セキュリティセンター(NISC)が2009年に公表した第2次情報セキュリティ基本計画では、「事故前提社会」への対応力強化として、障害事態の認知・分析、情報連絡、迅速な対応・復旧などの事後対応にも目配りを行うことを強調しています。
システム障害が事業に与える影響を効果的に低減するためには、発生後の障害を適切に管理し、顧客への影響を極小化する「事後対処」の検討が不可欠です。