目次
第1章 システム障害対応を学ぶ意義
- 1.1 なぜシステム障害対応は暗黙知だったのか
- 1.2 上昇し続けるシステム障害対応の難易度
- 1.3 システム障害対応時に起こり得るさまざまな問題
第2章 システム障害の定義
- 2.1 システム障害とは何か
- 2.2 システム障害対応の目的と定義
第3章 システム障害対応の登場人物と役割
- 3.1 システム障害対応の登場人物の概要と体制
- 3.2 インシデントコマンダーの役割と基本動作
- 3.3 作業担当
- 3.4 ユーザ担当
- 3.5 CIO
第4章 各プロセスの基本動作~発生から終息まで
- 4.1 検知・事象の確認
- 4.2 業務影響調査
- 4.3 原因調査
- 4.4 復旧対応
- 4.5 イベントの確認/事後対応
第5章 障害対応に必要なドキュメント
- 5.1 障害対応フロー図
- 5.2 オンコールシフト表と連絡先管理表
- 5.3 障害レベル管理表
- 5.4 障害状況ボード
- 5.5 作業タイムチャートシフト表
第6章 システム障害対応力を高めるツールと環境
- 6.1 大規模システム障害のコントロール
- 6.2 システム監視ダッシュボード
- 6.3 War Roomダッシュボード
- 6.4 War Room
- 6.5 構成管理データベース(CMDB)
第7章 組織の障害対応レベル向上と体制作り
- 7.1 障害対応レベルの維持・向上
- 7.2 障害対応を担う組織や体制
第8章 システム障害対応力の改善と教育
- 8.1 組織の障害対応力の継続的な改善
- 8.2 教育と訓練
Appendix 難易度の高いシステム障害ケース
- ケース1 ビジネスロジックアプリケーション障害と「誤データの波及」
- ケース2 インフラ障害における機器の「半死」
- ケース3 大規模インフラ障害と「伝言ゲーム」
- ケース4 キャパシティ障害
- ケース5 災害時のコントロール~3.11のふりかえり