2021.3.18技術ブログ

大規模トラブル発生に備えた環境整備と対応訓練

100を超える社内情報システムの大半はプライベートクラウド基盤上に構築されており、機能不全に陥る大規模トラブルが発生すると、メールによる連絡など通常の復旧手順では対応しきれない状況になる。この事態に備えたリカバリー環境の整備と訓練を実施した。

1.取り組みの背景

メールによる連絡など通常の復旧手順では対応しきれないトラブル

システムトラブル発生時には、メールやイントラサイト等が主なコミュニケーション手段となりますが、これらのサービスは、NTTデータのプライベートクラウド基盤(以下、社内情報システム共通基盤)上で提供しており、社内情報システム共通基盤自体のトラブル発生時には、コミュニケーション手段に大きな影響を及ぼすリスクがあります。
そこで、このようなトラブル時には、社内情報システム共通基盤上のサービスを用いずに、コミュニケーションパスを確立する必要があります。具体的には、Microsoft Teams(以下、Teams)等のWeb会議サービスや、Microsoft OneDriveといった、パブリッククラウドを中心とした汎用サービスを活用した、リカバリー環境を整備しました。

リカバリー環境の整備と訓練

トラブル発生時の音声での迅速なコミュニケーションを図る手段として、Web会議を常設化(専用のアカウントを準備、常時会議開始可能アドレスとして関係者間共有)するとともに、リカバリー対応中の各システムの情報や、対策会議の結果などの円滑な情報共有を図る媒体として、Teams上に関係者全員がアクセス可能なリカバリー専用チャネルを設置しました。(※)
なお、リカバリー専用チャネルには、リカバリー対応を即座に立ち上げるために必要となる手順や様式類を、コンテンツとして組み込んでいます。

リカバリー環境整備後に、対象となるトラブルは発生していませんが、各システムを所掌する管理者およびキーマンが、訓練を通じた復旧作業を体感することで、有事の際の迅速かつ円滑な対応ができるように、本訓練を企画、実施しました。
本訓練の実施計画は、2019年秋ごろから進めていましたが、折しも2020年は、新型コロナウイルス感染予防対策でテレワーク環境が拡充し、在宅勤務中心の勤務形態となり、これはトラブル発生時の対応体制を構築する上でも同様で、訓練の必要性が高まる形となりました。

図1:大規模トラブル対応体制図

図1:大規模トラブル対応体制図

(※) Teamsのチャネルとは、所属しているメンバー同士でメッセージやファイル共有、ビデオ会議などが行える場所。

2.トラブル訓練内容

訓練の目的

社内情報システム共通基盤のトラブル発生を想定し、今回新たに整備したコミュニケーションパスに問題がないか、各人の役割とコミュニケーションパスに不備がないかを確認し、必要に応じて改善点を洗い出す。

訓練の実施方法

訓練開催日
2020年9月17日 13:00 - 14:00
実施体系
リモート会議(訓練参加者はWeb会議およびTeamsで参加)
実施体制
組織長を長とし、各システムを所掌・運用する責任者およびキーマン(社員、協働者=155人)

訓練のシナリオ

シナリオ1
トラブル発生の初期状態を想定した対策会議を開催し、訓練内容を確認
シナリオ2
暫定復旧後を想定した対策会議を開催し、システム状況を確認
シナリオ3
訓練の振り返りと反省会を開催し、訓練の質問や改善点をヒアリング

図2:トラブル訓練の内容と実施事項

図2:トラブル訓練の内容と実施事項

3.訓練結果と考察

訓練結果

  • 訓練はシナリオ通りに進められ、大規模トラブル発生時の初動対応や関係者へのタイムリーな情報発信が、あらかじめ想定した時間内に完了した。
  • Teams等のWeb会議を活用した対策会議で、各人の役割と情報共有の手段などの課題、つまり、新たに整備したコミュニケーションパスの課題を顕在化することができ、有効な対応策を整理した。
  • 訓練参加者から有益な意見を収集でき、今後の対応方針を明確にした。

考察

  • 在宅勤務中心の勤務形態において、大規模トラブル発生時の初動対応で、情報共有手段として常設したWeb会議を使って開催した対策会議や、対応事項を含めた復旧までの流れの確認を、Teams上のリカバリー専用チャネルを用いるなど、新たな情報共有手段を的確に利用することができている。
  • 大規模トラブル発生前に、トラブル発生時の情報共有手段を訓練として体感した事で、顕在化した課題を整理し、対応できたことは大きく、本訓練から得られた経験を、実際のトラブル発生時に生かすことが期待できる。

図3:課題と対応方針(例)

図3:課題と対応方針(例)

4.まとめ

今回は、社内情報システム基盤が機能不全に陥る大規模トラブルの発生を想定したコミュニケーションパスについて、各システムを所掌する責任者およびキーマンが、Teams等のWeb会議を実際に体感するとともに、訓練参加者からの有益な意見の収集や、課題の対応策を明確にでき、有意義な訓練を実施することができました。 今後はさらに、故障復旧手順の確認などをシナリオに盛り込み、訓練を定期的かつ継続的に実施していきます。

  • Microsoft Teams、Microsoft OneDrive、OneNoteは、米国 Microsoft Corporation の米国およびその他の国における登録商標または商標です。
- NTTデータは、「これから」を描き、その実現に向け進み続けます -
お問い合わせ