障害対応のフローはどうする? 併せて知りたい障害の発生リスクを防ぐための3つの対策
業務に使用している社内システムや機器に障害が発生した場合、業務の中断が発生したり、顧客へのサービスを提供できなくなったりして大きな影響が生じるリスクがあります。
障害による影響を最小限に抑えるためには、フローに沿った迅速な原因解明と復旧対応が求められます。また、障害は突発的に発生することもあるため、日頃から対策を講じ、ITレジリエンス(※)を構築することも重要です。
ITインフラの運用保守を担う情報システム部門(以下、情シス)や管理部門では、「障害対応の流れを把握して、マニュアル策定や役割分担に役立てたい」「障害のリスクを抑えるために対策をしておきたい」とお考えの方もいるのではないでしょうか。
この記事では、障害が発生したときの対応フローと、障害の発生リスクを抑えるための対策について解説します。
なお、社内システムの改善についてはこちらの記事で詳しく解説しています。併せてご確認ください。
※ITレジリエンスとは、情報システムが障害やサイバー攻撃によるトラブルが発生したときに、迅速に正常な状態へと復元・復旧する能力のこと
目次[非表示]
- 1.障害が発生したときの対応フロー
- 1.1.①障害の事象を確認する
- 1.2.②一次展開
- 1.3.③二次展開と障害の影響の調査
- 1.4.④障害の原因を解明する
- 1.5.⑤復旧作業を行う
- 1.6.⑥再発防止に取り組む
- 2.障害を発生させないための3つの対策
- 2.1.①監視システムを導入する
- 2.2.②予備サーバを準備する
- 2.3.③定期的なメンテナンスを実施する
- 3.ITアウトソーシングを活用して迅速な障害対応を実現
- 4.まとめ
障害が発生したときの対応フロー
システムや機器に障害が発生した際は、フローに沿って迅速に復旧対応を進める必要があります。一般的な対応フローは、以下のとおりです。
①障害の事象を確認する
まずはどのような障害が発生しているかを確認する必要があります。
細かな調査は初動の遅れにつながるため、発生している障害のなかで重要な部分に要点を絞って調査・確認を行います。
▼初動での確認ポイント
確認項目 |
詳細 |
障害の内容・発生している現象 |
|
障害の発生時刻 |
|
影響範囲 |
|
②一次展開
障害の事象を確認したあとは、事前に定めたルールに則って、障害が発生したことを責任者や影響ある利用者に報告し、一次展開します。
この段階では、障害の原因や影響を詳細に報告するのは難しいため、障害発生の状況や範囲を迅速に伝えることを優先します。そのうえで、手順書どおりに復旧作業を進めます。
▼一次調査の調査範囲
- 障害箇所の特定(インターネット回線、ネットワーク機器、サーバー、ソフトウェア、クラウドサービス、PC)
- 予備システム・代替手段への切り替え可否
- 復旧見込み時間 など
ただし、誤った情報や曖昧な情報を伝えると復旧対応が遅れる可能性があるため、注意が必要です。不明点がある場合には、“不明”“調査中”として状況を正しく伝えることが重要といえます。また、迅速に復旧を進めるために、手順書には障害レベルや事象別の伝達事項を事前に定めておく必要があります。
③二次展開と障害の影響の調査
障害の内容や影響範囲などの詳細を調査し、復旧見込み時間を連絡します。
障害が発生しているシステムやアプリケーションを特定して、業務への影響状況、ほかのシステムへの影響範囲を調べます。復旧作業が長期になる場合や、業務やサービスの提供に影響が出ている場合には、早急に業務継続のための代替策を検討することが必要です。
▼代替策の例
- サーバの障害時に予備用サーバへの切り替えを行う
- システムの障害時に代替システムを利用する
- 電話やFAXでの運用に切り替える
④障害の原因を解明する
障害の影響を調査したあとは、障害の原因を解明します。障害が発生したシステムのプログラムにある監視ログやレポートから障害の原因を解析します。
ログやレポートを解析しても原因の特定に至らない場合は、過去に発生した類似の障害を基に仮説と検証を繰り返して、原因を絞り込む必要があります。
⑤復旧作業を行う
障害の原因を特定できた場合には、復旧作業を行います。その際は、作業計画と手順に基づいてバックアップや作業ログを記録しながら作業することが重要です。
原因の特定に時間を要する場合には、業務やサービスへの影響を最小限に抑えるために暫定対応を講じます。
▼暫定措置の例
- 復旧できる部分の応急処置を施してシステムを使用する
- 原因の切り分けを行い、復旧できない場合には代替手段を確保する
- 縮退運転に切り替える
⑥再発防止に取り組む
障害の再発を防止するために、障害分析を実施して恒久対策を実施します。また、報告書を作成して関係部門に提出することも必要です。
▼報告書にまとめる内容
- 障害の概要
- 時系列順の事象説明
- 障害の影響
- 暫定および恒久対応の内容
- 障害の原因
- 事後対応
- 再発防止策 など
発生した障害の内容や対応を報告書にまとめておくことで、ナレッジとして蓄積して社内で共有できます。これにより、あらゆるケースを想定した手順書や対策を検討できるようになります。
障害を発生させないための3つの対策
障害による影響を抑えるには、監視や定期的なメンテナンスを行ったり、障害発生時に事業を継続できる体制を整えたりする対策が必要です。
①監視システムを導入する
サーバやシステム、ネットワークなどの稼働状況をモニタリングする監視システムを導入する方法があります。
監視システムを導入すると24時間の監視を行えるほか、不具合や故障の予兆を検知して通知されるため、障害が発生する前に打ち手を検討できるようになります。また、担当者による監視業務の負担を軽減することも可能です。
監視システムには、以下の5つのタイプが存在します。
▼監視システムの種類
対象 |
内容 |
死活監視 |
定期的に信号を送信して、応答の正常性を監視する |
トラフィック監視 |
トラフィック量を監視して、ネットワーク帯域を制限する |
ハードウェア監視 |
サーバに発生した障害を検知して通知する |
リソース監視 |
CPU・メモリ・ディスク容量などの利用率を監視する |
ログ監視 |
OSやアプリケーションのログを収集して、アラートを点灯する |
迅速な復旧を実現させるためには、手順書を整備するとともに定期的な切替・復旧テストを実施することも重要です。
なお、社内システムの監視についてはこちらの記事で詳しく解説しています。
②予備サーバを準備する
障害発生時に備えて、予備サーバを準備しておく方法があります。
アクセスの集中やサイバー攻撃、ハードウェアの故障などによってサーバに障害が発生した際に、予備サーバに切り替えることで事業の運営を継続できるようになります。
また、予備サーバは自然災害が発生した際に事業を継続させるためのBCP(事業継続計画)の対策にもつながります。
③定期的なメンテナンスを実施する
社内システムや機器を安定して稼働させるために、日頃から定期的なメンテナンスを行っておくことも大切です。
ハードウェアに対する定期的なメンテナンスは、不具合・故障を未然に防げるほか、寿命を延ばすことにもつながります。
また、セキュリティのインシデントによる障害を防ぐには、プログラムの更新やアップデートを行い、最新の状態を保つことが重要です。
>>社内システム運用管理業務トータルサポートサービスに関する資料ダウンロードはこちら
ITアウトソーシングを活用して迅速な障害対応を実現
社内で運用保守に対応するリソースを確保するのが難しい場合や、障害対応ができる専門人材がいない場合などには、ITアウトソーシングを活用することも一つの方法です。
サーバやシステムの運用保守を外部に委託することで、社内の情シスまたは管理部門の業務負担を軽減できるほか、属人化の防止にもつながります。一定の品質で運用保守に対応してもらえるため、障害の防止や迅速な復旧対応を実現できます。
『FGLテクノソリューションズ』では、サーバやネットワークの運用保守をはじめ、障害対応、各機器の死活監視などを支援するインフラ管理サービスを提供しています。
「社内担当者が少なく、インフラの運用保守まで手が回らない」「ITに関する専門性に課題があり、障害発生時の復旧対応に不安がある」という方は、ITアウトソーシングの活用をぜひご検討ください。
まとめ
この記事では、障害対応のフローについて以下の内容を解説しました。
- 障害が発生したときの対応フロー
- 障害を発生させないための3つの対策
- 迅速な障害対応を実現するITアウトソーシング
社内システムや機器などに障害が発生すると、業務の遂行またはサービスの提供などに影響が出るリスクがあります。被害を最小限に抑えるには、定められたフローに沿って迅速に対処することが重要です。
また、障害を発生させない環境づくりも欠かせません。障害の対策法には、監視システムの導入や予備サーバの準備、定期的なメンテナンスなどが挙げられます。自社で運用保守や障害対応が難しい場合には、ITアウトソーシングを活用することが有効です。
『FGLテクノソリューションズ』では、経営基盤となるITインフラを安定稼働させるための監視・管理業務を代行するインフラ管理サービスを提供しています。