概要
- ITILフレームワークでは、重大インシデント管理を、重大な事業中断を引き起こす高優先度インシデントの解決に焦点を当てたインシデント管理のサブプロセスとして定義しています。
- 重大インシデントは通常、高い緊急度と影響度を特徴とし、多数のユーザー、VIP顧客、または重要なビジネスサービスに影響を及ぼし、被害を最小限に抑えるために即時の対応を必要とします。
- 重大インシデント管理に関わる主な役割には、第1レベルテクニカルサポート、インシデントマネージャー、重大インシデントチーム、ITオペレーターがあり、それぞれが重大インシデントの特定、エスカレーション、解決において明確な責任を担います。
- 効果的な重大インシデント管理には、インシデントの記録、分類、エスカレーション、重大インシデントチームの編成、サービスを可能な限り迅速に復旧するための回避策の実装を含む、構造化されたプロセスフローが必要です。
この記事は、Ivantiによる買収前にCherwellブログで公開されたものです。
ITIL®フレームワークは、ITサービスマネジメント(ITSM)における世界的な主要標準です。近年のITILでは、ITサービスライフサイクルの5つの段階に整理された、26個の個別プロセスと4つの機能が含まれています。ITILプロセスは、組織が提供するサービスの戦略策定、サービスの効果的な設計、サービスの構築と展開、サービスの運用、そして最終的には、組織が展開することを選択したサービスの継続的改善を促進するために役立ちます。
ITIL4の登場が待たれる中、ITIL v3およびその後の2011年版には、サービスライフサイクルの各フェーズに対応する5冊の書籍が含まれていました。
- サービスストラテジ
- サービスデザイン
- サービストランジション
- サービスオペレーション
- 継続的サービス改善
サービスオペレーションのマニュアルでは、ITILを導入する組織は、インシデント管理プロセスを支援する極めて重要なサービスデスクを含む、ITILの4つの機能に関する情報を確認できます。ITILでは、インシデントをITサービスの計画外の中断または品質低下と定義しており、通常、すべてのインシデントはサービスデスクを通じてIT組織に報告され、管理されます。
本ガイドでは、インシデント管理の中でも最も重要なサブプロセスの1つである、重大インシデントの管理、すなわち重大インシデント管理に焦点を当てます。ITILで重大インシデントがどのように定義され、IT組織がどのように解決に取り組むのかを説明するとともに、ITIL重大インシデント管理における最も重要な役割と責任を確認します。
重大インシデント管理とは?
インシデント管理プロセス全体の目的は、すべてのインシデントのライフサイクルを効果的に管理し、中断が発生した際にユーザーまたは顧客向けのITサービスを可能な限り迅速に復旧することです。インシデント管理は、IT組織が効率的にインシデント管理を実施できるよう連携する9つのサブプロセスで構成されています。ここでは重大インシデント管理に焦点を当てていますが、まずはこれらのサブプロセスがインシデント管理プロセス内でどのように連携するかを見てみましょう。
- インシデント管理サポートは、サポート技術者がインシデントに効率的に対応するために必要なツール、プロセス、スキル、ルールを提供し、維持することを目的としています。
- サービスデスクに報告されたインシデントは、通常、第1レベルの技術者が実施するインシデント記録および分類のステップを通過します。インシデントは、適時に解決されるよう、緊急度に応じて記録され、優先順位付けされなければなりません。重大インシデントは、サービスデスクが解決すべき最も優先度の高いインシデントを意味します。
- 第1レベルサポートによる即時インシデント解決は、報告されたインシデントを最初の問い合わせで解決できる場合に行われます。第1レベルの技術者は、回避策を用いて可能な限り迅速にサービスを復旧することを目指す必要があります。
- インシデントを即時に解決できない場合、次のステップは第2レベルサポートによるインシデント解決です。その目的は、合意された時間内にインシデントを可能な限り迅速に解決することです。
- 未解決のインシデントは、インシデント監視およびエスカレーションと呼ばれるプロセスを通じて継続的に監視されます。これにより、サービスレベル合意を維持するために解決が必要な高優先度インシデントに対して、IT組織が追加リソースを割り当てられるようになります。
- 重大な中断が発生した場合、ITILを導入する組織は、重大インシデントの処理サブプロセスに従うことで、インシデントを可能な限り迅速に解決するための行動と意思決定の指針を得ることができます。重大インシデントとは、事業活動に深刻な中断をもたらし、最優先で解決しなければならないインシデントです。大規模な組織では、重大な中断により、数十万ドル、場合によっては数百万ドル規模の収益損失が発生する可能性があります。インシデントが「重大インシデント」にエスカレーションされると、インシデントマネージャーは、より高度または専門的な技術知識を持つ特別なサポートグループやサードパーティサプライヤーの活用を含め、問題を迅速に解決するためにあらゆる手段を講じます。
- インシデントのクローズおよび評価プロセスでは、解決済みインシデントの品質がレビューされ、インシデントに関するすべての情報が正確に記録されていることを確認します。
- インシデント管理チームは、計画されたサービス停止に関するプロアクティブなユーザー情報を提供する役割を担います。
- インシデント管理レポートを通じて、インシデント関連の情報とデータが他のサービス管理プロセスに提供されます。
重大インシデントでは、インシデントマネージャーが極めて短い時間内にリソースへ効果的に通知し、調整し、問題解決に向けて投入することが求められます。報告されたインシデントの大半は第1レベルまたは第2レベルのテクニカルサポートによって解決されますが、重大インシデントでは、適時の解決を確実にするために追加リソースが必要になることが少なくありません。
ITILでは重大インシデントをどのように判定するのか?
インシデント管理を構成するサブプロセスの確認に基づくと、重大インシデント管理と、IT組織が最優先チケットにどのように対応するかについて、いくつかの基本的な推論ができます。インシデントは緊急度に基づいて記録・分類されるため、IT組織は高優先度インシデントを正しく特定するうえで、日常的に第1レベルの技術者に依存しています。また、インシデントの監視とエスカレーションは継続的なプロセスであるため、第1レベルの技術者は、最初の問い合わせで解決できない問題や追加リソースが必要な可能性のある問題をエスカレーションできます。
IT組織が重大インシデント管理プロセスを開始するには、インシデントを「重大」と指定するための基準が必要です。実際、ITILフレームワークには、インシデントマネージャーがIT組織のインシデント対応を整理し優先順位付けするために使用できるインシデント優先度マトリクスが含まれています。インシデント優先度マトリクスでは、緊急度と影響度という2つの異なる観点で、各インシデントに高・中・低の評価を割り当てます。
緊急度の高いインシデントとは、発生した損害が急速に拡大する可能性があるもの、またはスタッフが時間的制約のある業務を完了できなくなるものです。即時対応によって軽微なインシデントが重大インシデントになるのを防げる状況や、1人以上のVIPユーザーに影響する停止も緊急と見なされます。ここでいう緊急度とは、問題への対応を先延ばしにせず早期に行うことで、組織が大きなメリットを得られることを意味します。
インシデントは、組織への影響度についても評価されます。影響度の高いサービス停止とは、多数のスタッフに影響し、一部のスタッフが実際に業務を遂行できなくなる可能性のあるものです。影響度の高いインシデントは、企業に数千ドルから数万ドル、あるいはそれ以上の損失をもたらす可能性があり、停止によって事業そのものの評判が損なわれるおそれもあります。
インシデントの影響度と緊急度の評価は、優先度レベルの割り当てに使用されます。一般的には、各インシデントに1から5までの優先度が付与されます。優先度1のインシデントは重大と見なされ、IT組織はこのような事象に直ちに対応し、1時間以内の修正を目指します。一方、カテゴリー5のインシデントは非常に低い優先度であり、IT組織は24時間以内に対応し、1週間以内の解決を目指します。3段階の優先度も一般的です。
多くのIT組織では、重大インシデントを特定し適切に対応するための追加基準を定義しています。特定のサービス群、アプリケーション、またはインフラストラクチャコンポーネントをビジネスクリティカルとして指定し、これらのコンポーネントのいずれかが利用不能になり、サービス復旧までの推定時間が非常に長い、または不明である場合に、重大インシデント処理プロセスを開始することは有効です。
重大インシデントは、多くの場合、前述のカテゴリー1のクリティカルインシデントと同じ特徴を持ちます。通常、多数の顧客に同時に影響し、複数のVIP顧客に影響することも多く、顧客または事業組織にコストを発生させ、企業の評判に影響を及ぼす可能性があります。さらに、重大インシデントは、管理と解決に多くの時間と労力を要する可能性が高い点も特徴です。
ITIL重大インシデントのプロセスフローとは?
ITILでは、IT組織内で重大インシデントを診断し管理するための、比較的シンプルなプロセスフローが示されています。
- まずインシデントが報告されます。
- インシデントの記録と分類が行われます。インシデントが重大インシデントである場合、緊急度と組織への影響度の両方で高い評価が割り当てられる可能性が高くなります。
- インシデントは第2レベルサポートにエスカレーションされます。
- 重大インシデントが発生し、テクニカルサポートスタッフがそれを重大インシデントと判断していることが、インシデントマネージャーに通知されます。
- インシデントマネージャーは重大インシデントチーム(MIT)を編成します。MITはITマネージャーと技術専門家で構成され、その多くは社内メンバーですが、一部は社外から参加する可能性もあります。チームは連携して、インシデントを可能な限り迅速に解決します。
- 回避策が見つかると、将来の調査と恒久的な解決策の開発のために、そのインシデントが問題管理に報告される場合があります。
- 重大インシデント管理プロセスからデータが収集され、組織全体のインシデント管理実務における継続的改善の推進に活用されます。
このシンプルなプロセスフローは、重大インシデントを早期に診断し、IT組織の上位層へ迅速にエスカレーションし、迅速な解決に向けて対応することを確実にするのに役立ちます。そのためには、第1レベルの技術スタッフが重大インシデントを迅速に診断・エスカレーションし、大規模で複雑なインシデントを自力で解決しようとして貴重な時間を浪費しないことが重要です。
重大インシデントでは、サービスレベル違反が発生する可能性が非常に高くなります。IT組織は、重大インシデントを効率的に解決し、サービスレベル合意を維持できる能力を示さなければなりません。
ITILにおける重大インシデント管理の役割と責任とは?
ITILでは、重大インシデント処理プロセスにおいて、4つの異なる役割に説明責任と責任が割り当てられています。以下では、これらの職務に関連するITIL重大インシデント管理の役割と責任について詳しく説明します。
第1レベルテクニカルサポートの役割
第1レベルサポートの技術者は、IT組織内でインシデント報告を受ける主要な窓口です。通常、ITサービスデスクに配置され、ユーザーや顧客からのインシデント報告を受け付け、登録・分類し、サービス停止を可能な限り迅速に復旧するための初動対応を行います。
第1レベルサポートが許容される時間内にサービス停止を修正できない場合、インシデントは専門的なテクニカルサポートグループ(第2レベルサポート)にエスカレーションされます。重大インシデントが発生した際、第1レベルサポートの技術者がITサービス復旧の実作業を担う場合はありますが、重大インシデントチームを調整する責任を負うわけではありません。
インシデントマネージャーの役割
インシデントマネージャーは、報告され解決が必要なすべての重大インシデントを含め、IT組織内のインシデント管理プロセスについて全面的な所有権と説明責任を負います。重大インシデントが第1レベルまたは第2レベルの技術スタッフによってエスカレーションされると、インシデントマネージャーは、インシデント解決に必要なリソースと専門知識を判断し、問題を可能な限り迅速に解決できる重大インシデントチームの編成に着手する必要があります。
重大インシデントチームの役割
重大なIT停止に対応するMITの役割は、利用可能なすべてのリソースを活用して、サービスを可能な限り迅速に復旧することです。チームの規模と構成は、サービス停止の規模と性質、およびサービス復旧に必要な具体的な専門知識や対応手順によって異なります。
チームには、通常は変更管理など他のプロセスを担当しているスタッフを含め、サービスデスク以外の他部門のITマネージャーが参加する場合があります。さらに、第1レベルおよび第2レベルのテクニカルサポートスタッフ、組織内のITオペレーター、さらには社外のサードパーティの技術専門家が関与するのが一般的です。チームは連携して、サービスを可能な限り迅速に復旧するための戦略を策定し、実行します。
ITオペレーターの役割
ITオペレーターは、データセンターでの機器の設置、データのバックアップとサーバーの保守、スケジュールされたタスクの実行確認など、IT組織内の日常的な運用業務を担当します。ITオペレーターは、企業のITインフラストラクチャと運用に精通している点で重視されており、インシデントマネージャーが重大なサービス停止に対応するために重大インシデントチームを編成する際、追加の作業要員として活用される場合があります。
ITSMソフトウェアは重大インシデント管理の有効な資産
IT組織は、ITILのベストプラクティスをサポートするソフトウェアベースのITSMソリューションを導入することで、サービス提供の効率を高めることができます。
よくある質問
ITILにおける重大インシデント管理とは何ですか?
重大インシデント管理は、重大な事業中断を引き起こす高優先度インシデントの解決に焦点を当てた、インシデント管理のサブプロセスです。重大な中断が発生した際にITサービスを可能な限り迅速に復旧するための、構造化されたプロセスを含みます。
ITILでは重大インシデントをどのように判定しますか?
重大インシデントは、その影響度と緊急度に基づいて判定されます。影響度と緊急度が高いインシデントは重大と見なされます。影響度とは、影響を受けるユーザー数やビジネスプロセスの範囲を指し、緊急度とはインシデント解決に求められる時間的な切迫度を指します。
ITIL重大インシデントのプロセスフローとは何ですか?
重大インシデントのプロセスフローには、以下が含まれます。
- インシデントの報告
- インシデントの記録と分類
- 第2レベルサポートへのエスカレーション
- インシデントマネージャーへの通知
- 重大インシデントチーム(MIT)の編成
- サービス復旧のための回避策の実装
- 継続的改善に向けたデータの収集