Excelでのインシデント管理の苦しさ
みなさん、筆者はExcelが大好きです。思いついたらExcelで、課題一覧、帳票作成(もちろんExcel方眼紙)、システム構成図(もちろんExcel方眼紙)、報告書(もちろんExcel方眼紙)、プロジェクト管理……。なんて自由なツールなんでしょう! この自由さが大好きです。ときに自由過ぎて周りに迷惑をかけてしまいますが、それでもやめられないのがExcelです。
某SIerに在籍していたころ、Excelでインシデント管理を行っていました。障害連絡が入るとExcelファイルに記入するので、記入件数がどんどん増えていきます。ステータスも記入しなければなりません。運用チーム数名で、ファイルサーバ上にあるExcelファイルを黙々とメンテナンスしていきます。このような日々の業務の中では、次のような問題が発生します。
- 利便性の問題:ほかの誰かが使っていると、「読み取り専用」でしかファイルが利用できない
- データ破損の問題:ファイルの破損、もしくは上書きミスで一部のデータが消失する
- 情報連携と共有の問題:各種の帳票がすべて別々のファイルなので連携ができていない。手作業で情報連携と共有を行うので生産性が悪い
世間にはITILというITサービスマネジメントのフレームワークがあり、それに準拠したツールがあるので、そのツールを使えば問題は改善するはずです。しかし、一見大きくなさそうで実は大きい問題として、これまでの報告書と書式が違うので読みにくいなどの問題が出てきます。
このような問題に対応するため、「Atlassian社が開発するJIRA Software(以下JIRAと表記)にアドオンを組み合わせてインシデント管理業務の運用を改善し、Excel方眼紙帳票にデータを差し込んで帳票として出力する」という夢のような方法をお伝えします。
インシデント管理ツールとしてJIRAを使ってみよう
ITILでは、通常どおり業務を遂行できないシステムの状態を「インシデント」、インシデントを引き起こす根本原因を「問題」と呼びます。インシデントが発生したとき、迅速にサービスの復旧処置を施すまでを「インシデント管理」、根本原因を特定して再発を防止する是正処置を実施するまでを「問題管理」として別々に管理・解決していくことでITサービスの品質を向上させることを目標としています(図1)。ここでは、インシデント発生から解決までの流れを、JIRAを早期に業務利用できる「すぐに使えるテンプレートシリーズ」の障害管理テンプレートを利用して操作と合わせて説明します。このテンプレートのURLは、
となります。
インシデントの復旧処置
a. インシデント発生!
ユーザから問い合わせを受けたら、インシデントをJIRAに登録します(図2)。インシデントの解決策の蓄積と傾向分析のため、受けた問い合わせはすべて登録することが重要です。インシデントには、システムが使えないなどの障害回避要求だけでなく、パスワード変更や情報開示などのサービス要求も含まれます。
b. 担当者にインシデント対応を依頼する(担当者の割り当て)
ユーザからの問い合わせ内容を課題に登録したら、インシデントの担当者をアサインします。このとき、アサインされた担当者には、インシデント対応を割り当てられたという内容の通知が送られます。その担当者がJIRAにアクセスすると、ダッシュボードに課題が表示されます(図3)。
c. ビジネスへの影響度と緊急度、優先度を決める
インシデント対応をアサインされた担当者は、影響度と緊急度、優先度を決めます。影響度(ビジネスにおけるインパクト)は、インシデントによりサービスを利用できなくなるユーザの数や、システムの規模などから判断します。緊急度は、インシデントを解決するのに必要とする時間から判断します。影響度が高くても、運用回避や代替手段の利用が可能な場合は緊急度は低くなります。優先度は、影響度と緊急度から算出できます。
d. 対応策を調査する
続いて、障害回避要求かサービス要求かの分類をします。テンプレートでは「種別」という項目で選択します。サービス要求の場合は、用意してある手順を準備します。障害回避要求の場合は回避策を調査し、過去に同様のインシデントが起きていれば、その回避策のように対応します。インシデントを課題として蓄積することにより、その回避手順(ワークアラウンド)も蓄積されていきます。ここでは、インシデントの原因が不明な場合でも特定はしません。また暫定回避ができない場合は、対応不可としてクローズし、問題として管理します。
e. インシデントを解決する
調査した回避策により、インシデントを解決します(図4)。テンプレートで「作業開始」を実行して調査内容を入力し、「対応中」ステータスに遷移させます。影響度の高いインシデントの場合は、クローズする前に対応内容の承認を受けます。テンプレートには、承認待ちの課題や解決状況を簡単に把握できるように、専用のダッシュボードが用意されています。
f. インシデントをクローズする
サービスが復旧していることを確認したら、インシデントをクローズします。インシデントがクローズされると、この回避手順は既知のワークアラウンドとなり、同様のインシデントが起きた際に役立ちます。
以上で、インシデント発生から解決までの「インシデント管理」の一連の活動を説明しました。
後編では、インシデントの根本原因を調査しインシデント発生を防止する「問題管理」の活動を説明します。
日本だけでなく、アジア圏でもアトラシアン製品販売のトップエキスパートであるリックソフトのWebサイトでは、各アトラシアン製品の体験版を提供しているほか、アトラシアン製品専用のコミュニティも運営しています。まずはアクセスしてみては!
- リックソフトJIRAデモ環境
- https://www.ricksoft.jp/demo/
- 第1特集
MySQL アプリ開発者の必修5科目
不意なトラブルに困らないためのRDB基礎知識
- 第2特集
「知りたい」「使いたい」「発信したい」をかなえる
OSSソースコードリーディングのススメ
- 特別企画
企業のシステムを支えるOSとエコシステムの全貌
[特別企画]Red Hat Enterprise Linux 9最新ガイド
- 短期連載
今さら聞けないSSH
[前編]リモートログインとコマンドの実行
- 短期連載
MySQLで学ぶ文字コード
[最終回]文字コードのハマりどころTips集
- 短期連載
新生「Ansible」徹底解説
[4]Playbookの実行環境(基礎編)