システム障害への対応力を高めるには? ITレジリエンスを強化するポイント
業務の遂行や顧客へのサービス提供などにITシステムが欠かせなくなった今、社内のシステムを安定的に稼働できる体制づくりが求められます。そのためには、システム障害を予防するだけでなく、異常や不具合をいち早く発見して、正常な状態へと迅速に復旧する“ITレジリエンス(※)”を強化することが重要です。
企業の情報システム部門や管理部門では、ITレジリエンスを強化してシステム障害への対応力を身につけるために、「どのような予防が必要なのか」「被害の最小化や迅速な復旧対応につなげるにはどうすればよいか」と悩まれている方もいるのではないでしょうか。
この記事では、システム障害の予防方法とITレジリエンスを強化するポイントについて解説します。
※ITレジリエンスとは、回復力や復元力などの意味があり、システム障害が発生した際に速やかな復旧と被害の最小化を図る組織力のこと。
目次[非表示]
- 1.システム障害を予防する3つの方法
- 2.ITレジリエンスを強化する重要性
- 3.ITレジリエンスを強化するポイント
- 3.1.①システム監視を自動化する
- 3.2.②障害発生時の対応フローを策定する
- 3.3.③DR対策を実施する
- 4.まとめ
システム障害を予防する3つの方法
ITレジリエンスの強化に取り組む際には、まずはシステム障害を予防するための対策が求められます。基本的な予防方法には、以下の3つが挙げられます。
①システム監視
1つ目は、システム監視です。
システムを利用するためのITインフラやソフトウェアなどが正常に稼働しているかどうかを監視する必要があります。日ごろからシステムの稼働状況を監視することによって、障害発生の兆候を検知して未然に防げるようになります。
②負荷の分散
2つ目は、負荷の分散です。
負荷の分散とは、特定のサーバに負荷が集中しないようにほかのサーバへと処理を均一に分散することです。万が一、1つのサーバが停止したとしても、ほかのサーバを利用することでシステムを継続的に稼働できるようになります。
③サーバの冗長化
3つ目は、サーバの冗長化です。
サーバの冗長化とは、急激なアクセス上昇によるシステム障害に備えて、予備のサーバやネットワーク機器を用意して並列で稼働させるシステム構築の方法です。
システム障害が発生した場合に、予備のサーバやネットワーク機器に切り替えることによって継続的に稼働できるようになります。
また、複数のサーバを運用することで、メンテナンスや改修を行う際に発生するサービスの停止時間を最小限に抑えることが可能です。
ITレジリエンスを強化する重要性
社内でシステム障害の予防を行っていても、サイバー攻撃や通信障害、保守運用時のヒューマンエラーなどによって、不具合・停止などのトラブルに発展するリスクがあります。
ひとたびシステムの停止が発生すると業務を遂行できず、サービスを提供できなくなったり、関係者とのトラブルが発生したりして重大な損害につながる可能性があります。
損害を最小限に抑えるには、コンティンジェンシープランを策定して、システム障害が発生した際の代替策・復旧策を確立しておくことが重要です。
コンティンジェンシープランとは、不足の事態が発生した際に事業活動への影響を最小限に食い止めるための基本の行動方針や業務体制を定めた計画のことです。策定にあたっては、以下の項目を考慮して業務遂行に必要な経営資源や代替策などを検討します。
▼コンティンジェンシープランを策定する際に考慮する項目
項目 |
検討する内容 |
復旧する状態 |
復旧発生時点の近くまでどれくらい戻れるか |
復旧までの時間 |
中核となる業務(システム)の停止時間をどれくらい容認できるか |
継続する業務 |
中核となる業務(システム)は何で、レベルダウンがどれくらい容認できるか |
コンティンジェンシープランを策定したあとは、障害訓練を実施して従業員が緊急時に対応できるようにしておく必要があります。
ITレジリエンスを強化するポイント
ITレジリエンスを強化するには、異常を速やかに検知する仕組みや迅速な復旧対応ができる社内体制を構築することがポイントです。
①システム監視を自動化する
システム障害の異常を速やかに検知するには、24時間365日の体制でシステム監視を行う必要があります。
目視や巡回などによってシステム監視を行っている現場では、異常の発見が遅れたり、見逃したりする可能性が考えられます。ツールを導入して、社内のITインフラやサービスなどの稼働状況を監視することで、ヒューマンエラーをなくせるほか、異常の検知と管理者への通知を迅速に行えるようになります。
▼システム監視の主な対象
システム監視の主な対象には、以下が挙げられます。
■ハードウェア
CPUの温度やファンの回転数、HDD・SSDの状態などを監視します。
■リソース
システムの稼働に割かれているリソースを監視します。CPU・メモリ・ディスクなどの使用率を基に、異常または負荷を検知することが可能です。
■ミドルウェア
Webサーバやデータサーバ、アプリケーションサーバなどを監視します。Webサーバへのリクエスト数や同時接続数、データベースの実行クエリ数、アプリケーションのAPI呼び出しなどを監視して検知することが可能です。
■ログ
ハードウェア・ミドルウェア・OSなどのログを監視します。プログラムがどのように動作して、誰のアカウントから何のシステムにアクセスされたかが記録されます。ログの書き込みに異常が発見された場合に通知されます。
■SNMP
サーバやルーターなどのネットワーク機器の動作状況や、トラフィックのパフォーマンスなどを監視します。ハードウェアのリソース状況やデータ転送量を監視して、制御を行うことが可能です。
なお、システム監視の進め方や注意点については、こちらの記事で詳しく解説しています。併せてご確認ください。
②障害発生時の対応フローを策定する
システム障害が発生した際に迅速に復旧を行うために、対応フローを策定して社内に周知することが重要です。
システム障害の内容・範囲・業務への影響度・セキュリティ上のリスクなどを調査したうえで関係者への報告を行い、業務を継続するための代替策を検討します。
また、復旧を行うための作業計画や手順を作成して、原因の特定に時間がかかる場合の暫定措置を検討しておくことも大切です。
▼障害発生時の対応フロー
- 障害事象の確認
- 関係者への報告
- 障害による影響範囲の調査と代替策の検討
- 解析と仮説検証による障害原因の特定
- 作業計画に基づいた復旧作業の実施
- 報告書の作成と再発防止のための対策の実施
システム障害の対応フローについてはこちらの記事をご確認ください。
③DR対策を実施する
DR(Disaster Recovery)対策とは、自然災害やセキュリティ上のインシデントなどによって発生したシステム障害を復旧するための対策のことです。
被害の最小化や迅速な問題解決を図るために、リスクごとに障害のシナリオを想定した復旧プランを立てます。DR対策の実施にあたっては、3つの目標値を設定して具体的な取り組みを検討することがポイントです。
▼3つの目標値
目標値 |
詳細 |
RPO
(目標復旧地点)
|
システム障害の発生前において、過去のどの地点までデータを復元するかを定めた目標値 |
RTO
(目標復旧時間)
|
システム障害の発生後に組織の業務が停止しても許容できる最大時間を定めた目標値 |
RLO
(目標復旧レベル)
|
平常稼働時を100%として、どれくらいの割合でシステムを復旧させるのかを定めた目標値 |
>>社内システム運用管理業務トータルサポートサービスに関する資料ダウンロードはこちら
まとめ
この記事では、システム障害への対応力について以下の内容を解説しました。
- システム障害を予防する3つの方法
- ITレジリエンスを強化する重要性
- ITレジリエンスを強化するポイント
システム障害に備えて予防策を講じていても、サイバー攻撃や災害などによって不具合・停止などのトラブルが起こる可能性があります。システム停止による損害を最小限に抑えるには、異常を検知して迅速な復旧対応ができるITレジリエンスを強化することが重要です。
そのためには、ITツールを活用してシステム監視を自動化するとともに、障害発生時の対応フローを策定して周知すること、DR対策を実施することがポイントです。
また、コンティンジェンシープランを作成して、障害発生時のリスクに応じた代替策・復旧策を確立させておくと、事業継続性を高められます。
『FGLテクノソリューションズ』の社内システム運用サービスでは、事業活動の基盤となるITインフラの監視の総合的な監視と障害対応の代行を承っております。
サービスの詳細については、こちらから資料をダウンロードしていただけます。