catch-img

障害対応のフローはどうする? 実施のポイントや障害の発生リスクを防ぐための5つの対策

※2025年5月14日更新

業務に使用している社内システムや機器に障害が発生した場合、業務の中断が発生したり、顧客へのサービスを提供できなくなったりして大きな影響が生じるリスクがあります。

障害による影響を最小限に抑えるためには、フローに沿った迅速な原因解明と復旧対応が求められます。また、障害は突発的に発生することもあるため、日頃から対策を講じ、ITレジリエンスを構築することも重要です。

ITインフラの運用保守を担う情報システム部門(以下、情シス)や管理部門では、「障害対応の流れを把握して、マニュアル策定や役割分担に役立てたい」「障害のリスクを抑えるために対策をしておきたい」とお考えの方もいるのではないでしょうか。

この記事では、障害が発生したときの対応フローと、障害の発生リスクを抑えるための対策について解説します。


なお、社内システムの改善についてはこちらの記事で詳しく解説しています。併せてご確認ください。

  社内システムの改善を図る方法とポイント! 運用における課題を踏まえて解説 安定かつ効率的に事業を運営するには、経営戦略に基づいた社内システムの運用が欠かせません。しかし、社内システム業務の範囲は広がっており、情シス部門の運用にさまざまな課題が生じるケースもあります。今回は、社内システム運用における課題を踏まえつつ、改善を図る方法とポイントについて解説します。 株式会社FGLテクノソリューションズ


※ITレジリエンスとは、情報システムが障害やサイバー攻撃によるトラブルが発生したときに、迅速に正常な状態へと復元・復旧する能力のこと。


  資料ダウンロード|企業が抱える情報セキュリティに関して課題と対策を開設 本書では企業が見落としがちな情報セキュリティ対策の課題とその要因、解決方法を紹介します。 株式会社FGLテクノソリューションズ



目次[非表示]

  1. 1.企業におけるITリスクと障害対応の重要性
  2. 2.障害が発生したときの対応フロー
    1. 2.1.①障害の事象を確認する
    2. 2.2.②一次展開を実施する
    3. 2.3.③二次展開と障害の影響の調査を行う
    4. 2.4.④障害の原因を解明する
    5. 2.5.⑤復旧作業を行う
    6. 2.6.⑥再発防止に取り組む
  3. 3.障害時に迅速な対応を行うためのポイント
    1. 3.1.自社のシステム構成を可視化する
    2. 3.2.障害対応フローを策定する
    3. 3.3.オペレーションマニュアルを作成・周知する
    4. 3.4.各部門や外部関係者との情報共有体制を整備する
  4. 4.障害を発生させないための5つの対策
    1. 4.1.①監視システムを導入する
    2. 4.2.②予備サーバを準備する
    3. 4.3.③分散クラウドを構築する
    4. 4.4.④定期的なメンテナンスを実施する
    5. 4.5.⑤障害復旧訓練を実施する
  5. 5.ITアウトソーシングを活用して迅速な障害対応を実現
  6. 6.まとめ


企業におけるITリスクと障害対応の重要性

企業が持つIT資産と情報を保護して、安定かつ持続的にシステムを稼働するためには、障害対応の準備をしておくことが重要です。

日常の業務や事業活動にシステムが欠かせない存在となった今、サイバー攻撃や自然災害、運用管理の不備などを原因とするさまざまなITリスクを抱えています。


▼企業が抱えるITリスク

  • システムの誤作動やダウンによる業務の停止
  • 情報漏えいによるステークホルダーからの信頼の失墜
  • 障害の頻発による保守・改修コストの増加 など


自社の基盤業務や主要なサービスを運用するシステムが停止すると、事業活動を継続できなくなりビジネス機会の損失につながります。

また、情報漏えいやサービスの停止が発生すると、企業イメージが低下して顧客離れによる売上減少や株価の下落を招くレピュテーションリスクもあります。

このようなITリスクに対応するには、障害発生の対策とともに迅速に復旧を行える体制を整備することが求められます。



障害が発生したときの対応フロー

システムや機器に障害が発生した際は、フローに沿って迅速に復旧対応を進める必要があります。一般的な対応フローは、以下のとおりです。


①障害の事象を確認する

まずはどのような障害が発生しているかを確認する必要があります。

細かな調査は初動の遅れにつながるため、発生している障害のなかで重要な部分に要点を絞って調査・確認を行います。


▼初動での確認ポイント

確認項目

詳細

障害の内容・発生している現象

  • ハードウェア障害
  • ソフトウェア障害(OS、アプリ)
  • セキュリティ障害 など

障害の発生時刻

  • 20:00頃
  • 深夜2:30頃 など

影響範囲

  • 業務やサービス提供への影響
  • 使用不可インフラ など​​​​​


②一次展開を実施する

障害の事象を確認したあとは、事前に定めたルールに則って、障害が発生したことを責任者や影響ある利用者に報告し、一次展開します。

この段階では、障害の原因や影響を詳細に報告するのは難しいため、障害発生の状況や範囲を迅速に伝えることを優先します。そのうえで、手順書どおりに復旧作業を進めます。


▼一次調査の調査範囲

  • 障害箇所の特定(インターネット回線、ネットワーク機器、サーバ、ソフトウェア、クラウドサービス、PC)
  • 予備システム・代替手段への切り替え可否
  • 復旧見込み時間 など


ただし、誤った情報や曖昧な情報を伝えると復旧対応が遅れる可能性があるため、注意が必要です。不明点がある場合には、“不明”“調査中”として状況を正しく伝えることが重要といえます。また、迅速に復旧を進めるために、手順書には障害レベルや事象別の伝達事項を事前に定めておく必要があります。


③二次展開と障害の影響の調査を行う

障害の内容や影響範囲などの詳細を調査し、復旧見込み時間を連絡します。

障害が発生しているシステムやアプリケーションを特定して、業務への影響状況、ほかのシステムへの影響範囲を調べます。復旧作業が長期になる場合や、業務やサービスの提供に影響が出ている場合には、早急に業務継続のための代替策を検討することが必要です。


▼代替策の例

  • サーバの障害時に予備用サーバへの切り替えを行う
  • システムの障害時に代替システムを利用する
  • 電話やFAXでの運用に切り替える


④障害の原因を解明する

障害の影響を調査したあとは、障害の原因を解明します。障害が発生したシステムのプログラムにある監視ログやレポートから障害の原因を解析します。

ログやレポートを解析しても原因の特定に至らない場合は、過去に発生した類似の障害を基に仮説と検証を繰り返して、原因を絞り込む必要があります。


⑤復旧作業を行う

障害の原因を特定できた場合には、復旧作業を行います。その際は、作業計画と手順に基づいてバックアップや作業ログを記録しながら作業することが重要です。

原因の特定に時間を要する場合には、業務やサービスへの影響を最小限に抑えるために暫定対応を講じます。


▼暫定措置の例

  • 復旧できる部分の応急処置を施してシステムを使用する
  • 原因の切り分けを行い、復旧できない場合には代替手段を確保する
  • 縮退運転に切り替える


⑥再発防止に取り組む

障害の再発を防止するために、障害分析を実施して恒久対策を実施します。

障害分析を行う際には、ほかのシステムでも同じような障害が発生する可能性がないか確認することがポイントです。

また、報告書を作成して関係部門に提出することも必要です。


▼報告書にまとめる内容

  • 障害の概要
  • 時系列順の事象説明
  • 障害の影響
  • 暫定および恒久対応の内容
  • 障害の原因
  • 事後対応
  • 再発防止策 など


発生した障害の内容や対応を報告書にまとめておくことで、ナレッジとして蓄積して社内で共有できます。これにより、あらゆるケースを想定した手順書や対策を検討できるようになります。




障害時に迅速な対応を行うためのポイント

障害時の迅速な対応を実現するには、現状のシステム構成や対応フローを明確にしておくとともに、部門間・関係者間が円滑に連携できる体制づくりが必要です。


自社のシステム構成を可視化する

自社のシステム構成を可視化して全体像を把握することが必要です。

システムの内容やネットワークの状況などを整理して可視化することで、障害の発生時に原因と影響範囲を調査しやすくなり、迅速に復旧作業を行えます。


▼システム構成を可視化する際のポイント

  • IT資産(ハードウェア・ソフトウェア・ネットワーク・データベース)の内容を洗い出す
  • 物理環境・仮想環境のITインフラを視覚的に区分する
  • 各IT資産の運用部門や接続関係を図を用いて示す
  • システム間のデータの流れを図を用いて示す


障害対応フローを策定する

障害が発生した際の混乱を防ぐために、障害対応フローを策定します。

障害を検知してから再発防止策までの一連の流れと作業内容を整理して、フローチャート形式で視覚化することがポイントです。これにより、担当者が迷うことなく適切な対応を取れるようになり、対応の遅れによる損失の拡大を防止できます。


▼障害対応フロー図に記載する主な項目

  • 障害検知後の対応手順
  • システム停止時の通知手順
  • 各フローの対応チーム・役割分担
  • トラブル発生時のエスカレーションのプロセス など


オペレーションマニュアルを作成・周知する

情シスや管理部門の担当者が行う具体的な行動や作業内容について定めたオペレーションマニュアルを作成・周知することも必要です。

障害対応に関わる担当者のオペレーションを明確にすることで、属人化を防いで全員が適切な行動を取れるようになります。


▼オペレーションマニュアルに記載する主な項目

  • 障害検知後の調査・記録項目
  • 障害レベルや事象に応じた各部門への伝達事項
  • 業務への影響度に応じた復旧作業の優先順位
  • システム停止時の代替策
  • 報告書の記載項目 など


各部門や外部関係者との情報共有体制を整備する

迅速に復旧作業を進めるには、各部門や外部関係者との情報共有体制を整備することが欠かせません。

コミュニケーション手段や担当者の連絡先などを明確にしておくことで、障害対応時の情報伝達が円滑になり、対応のスピード向上につながります。

なお、障害対応のアウトソーシングについてはこちらの記事をご確認ください。

  資料ダウンロード|企業が抱える情報セキュリティに関して課題と対策を開設 本書では企業が見落としがちな情報セキュリティ対策の課題とその要因、解決方法を紹介します。 株式会社FGLテクノソリューションズ



障害を発生させないための5つの対策

障害による影響を抑えるには、監視や定期的なメンテナンスを行ったり、障害発生時に事業を継続できる体制を整えたりする対策が必要です。


①監視システムを導入する

サーバやシステム、ネットワークなどの稼働状況をモニタリングする監視システムを導入する方法があります。

監視システムを導入すると24時間の監視を行えるほか、不具合や故障の予兆を検知して通知されるため、障害が発生する前に打ち手を検討できるようになります。また、担当者による監視業務の負担を軽減することも可能です。

監視システムには、以下の5つのタイプが存在します。


▼監視システムの種類

対象

内容

死活監視

定期的に信号を送信して、応答の正常性を監視する

トラフィック監視

トラフィック量を監視して、ネットワーク帯域を制限する

ハードウェア監視

サーバに発生した障害を検知して通知する

リソース監視

CPU・メモリ・ディスク容量などの利用率を監視する

ログ監視

OSやアプリケーションのログを収集して、アラートを点灯する​​​


迅速な復旧を実現させるためには、手順書を整備するとともに定期的な切替・復旧テストを実施することも重要です。


なお、社内システムの監視についてはこちらの記事で詳しく解説しています。

  社内システムの監視で安定稼働を目指す! 監視対象や進め方、注意点とは? 社内業務を円滑に行うためには、システムの障害や不具合を防いで安定して稼働させることが重要です。また、サイバー攻撃や不正アクセスなどのセキュリティリスクに対応するための対策も求められます。 そこで重要となるのが、社内システムを監視できる体制を整えることです。しかし、システムの監視には専門的なスキルが必要になるほか、監視項目は多岐にわたります。 情報システム部門や管理部門では、「自社で監視運用できるリソースを確保するのが難しい」「運用に負担がかかっている」などの課題を持つ方もいるのではないでしょうか。 この記事では、システム監視の重要性を踏まえつつ、システム監視を効率的に運用するための進め方や注意点について解説します。 株式会社FGLテクノソリューションズ


②予備サーバを準備する

障害発生時に備えて、予備サーバを準備しておく方法があります。

アクセスの集中やサイバー攻撃、ハードウェアの故障などによってサーバに障害が発生した際に、予備サーバに切り替えることで事業の運営を継続できるようになります。

また、予備サーバは自然災害が発生した際に事業を継続させるためのBCP(事業継続計画)の対策にもつながります。


③分散クラウドを構築する

分散クラウドは、地理的に分散された複数のデータセンターにシステムを構築してクラウドサービスを利用する方法です。

クラウドサービスのベンダーが提供するリソースを複数の拠点に分散することにより、一つの拠点で障害が発生した場合でも別のデータセンターにアクセスしてサービスを利用できるようになります。

主要な業務や重要データの管理にクラウドサービスを利用している企業において、システムの可用性・信頼性を向上させるために有効な対策といえます。


④定期的なメンテナンスを実施する

社内システムや機器を安定して稼働させるために、日頃から定期的なメンテナンスを行っておくことも大切です。

ハードウェアに対する定期的なメンテナンスは、不具合・故障を未然に防げるほか、寿命を延ばすことにもつながります。

また、セキュリティのインシデントによる障害を防ぐには、プログラムの更新やアップデートを行い、最新の状態を保つことが重要です。


⑤障害復旧訓練を実施する

障害の発生を想定した訓練を実施することが必要です。

障害復旧訓練を実施することで、予備サーバへの切り替えや暫定措置の運用などを正常に行えるか検証することが可能です。

また、障害対応フローとオペレーションマニュアルに沿って訓練を実施しておくと、各担当者の理解が深まり実際の障害にも冷静に取り組めるようになります。

訓練の実施後には振り返りを行い、これまで見えなかった課題や改善点を明らかにすることにより、フロー・マニュアルのブラッシュアップを行えます。




ITアウトソーシングを活用して迅速な障害対応を実現

社内で運用保守に対応するリソースを確保するのが難しい場合や、障害対応ができる専門人材がいない場合などには、ITアウトソーシングを活用することも一つの方法です。

サーバやシステムの運用保守を外部に委託することで、社内の情シスまたは管理部門の業務負担を軽減できるほか、属人化の防止にもつながります。一定の品質で運用保守に対応してもらえるため、障害の防止や迅速な復旧対応を実現できます。

FGLテクノソリューションズ』では、サーバやネットワークの運用保守をはじめ、障害対応、各機器の死活監視などを支援するインフラ管理サービスを提供しています。

「社内担当者が少なく、インフラの運用保守まで手が回らない」「ITに関する専門性に課題があり、障害発生時の復旧対応に不安がある」という方は、ITアウトソーシングの活用をぜひご検討ください。


>>社内システム運用管理業務トータルサポートサービスに関する資料ダウンロードはこちら



まとめ

この記事では、障害対応について以下の内容を解説しました。


  • 企業におけるITリスクと障害対応の重要性
  • 障害が発生したときの対応フロー
  • 障害時に迅速な対応を行うためのポイント
  • 障害を発生させないための5つの対策
  • 迅速な障害対応を実現するITアウトソーシング


社内システムや機器などに障害が発生すると、業務の遂行またはサービスの提供などに影響が出るリスクがあります。被害を最小限に抑えるには、定められたフローに沿って迅速に対処することが重要です。

また、障害を発生させない環境づくりも欠かせません。障害の対策法には、監視システムの導入や予備サーバの準備、分散クラウドの構築、定期的なメンテナンスなどが挙げられます。自社で運用保守や障害対応が難しい場合には、ITアウトソーシングを活用することが有効です。


FGLテクノソリューションズ』では、経営基盤となるITインフラを安定稼働させるための監視・管理業務を代行するインフラ管理サービスを提供しています。

  資料ダウンロード|社内システム運用管理サービス FGLテクノソリューションズのサービスに関する詳しい資料は当ページからダウンロードいただけます。情シス業務が多忙、一人情シス・体制強化が進まない、などでお悩みの方はぜひお気軽にご相談ください。 株式会社FGLテクノソリューションズ


山根 佐利
山根 佐利
1998年に入社し、インフラエンジニアとしてシステム導入から運用を担当しました。 2000年には社内情シス業務のアウトソーシングサービスを立ち上げ、現在はマーケティング兼プリセールスを担当し、サービス事業部と共に自社の社内情シス担当も兼務してノウハウを習得しています。

人気記事ランキング

タグ一覧