Rollen und Verantwortlichkeiten im ITIL Major Incident Management

Zusammenfassung

Das ITIL-Framework definiert Major Incident Management als Teilprozess des Incident Management, der sich auf die Behebung von Incidents mit hoher Priorität konzentriert, die erhebliche Geschäftsunterbrechungen verursachen.
Ein Major Incident ist in der Regel durch hohe Dringlichkeit und große Auswirkungen gekennzeichnet, betrifft viele Benutzer, VIP-Kunden oder kritische Geschäftsservices und erfordert sofortige Aufmerksamkeit, um Schäden zu minimieren.
Zu den zentralen Rollen im Major Incident Management gehören 1st-Level Technical Support, Incident Manager, Major Incident Team und IT Operator. Jede Rolle hat klare Verantwortlichkeiten bei der Identifizierung, Eskalation und Behebung von Major Incidents.
Effektives Major Incident Management umfasst einen strukturierten Prozessablauf mit Incident Logging, Kategorisierung, Eskalation, Bildung eines Major Incident Team und Umsetzung eines Workarounds, um Services so schnell wie möglich wiederherzustellen.

Dieser Beitrag erschien ursprünglich im Cherwell-Blog, vor der Übernahme durch Ivanti.

Das ITIL®-Framework ist der weltweit führende Standard für IT Service Management (ITSM). In seiner jüngsten Ausprägung umfasste ITIL 26 separate und klar abgegrenzte Prozesse sowie vier Funktionen, die in den fünf Phasen des IT-Service-Lebenszyklus organisiert sind. Es gibt ITIL-Prozesse, die Unternehmen dabei unterstützen, strategisch zu planen, welche Services sie anbieten, Services effektiv zu konzipieren, Services zu erstellen und bereitzustellen, Services zu betreiben und schließlich die kontinuierliche Verbesserung der Services zu fördern, die das Unternehmen bereitgestellt hat.

Während wir auf ITIL 4 warteten, umfassten ITIL v3 und die anschließende Version von 2011 fünf Bände, die jeweils einer Phase des Service-Lebenszyklus entsprechen:

Service Strategy
Service Design
Service Transition
Service Operation
Continual Service Improvement

Im Handbuch zu Service Operation finden ITIL-Organisationen Informationen zu den vier Funktionen von ITIL, darunter der besonders wichtige Service Desk, der den Incident-Management-Prozess unterstützt. ITIL definiert einen Incident als ungeplante Unterbrechung oder Qualitätsminderung eines IT-Service. Alle Incidents werden in der Regel über einen Service Desk an die IT-Organisation gemeldet und von ihr verwaltet.

In diesem Leitfaden konzentrieren wir uns auf einen der wichtigsten Teilprozesse des Incident Management: das Management von Major Incidents, also Major Incident Management. Wir erläutern, wie Major Incidents in ITIL definiert werden und wie IT-Organisationen an deren Behebung arbeiten. Außerdem betrachten wir die wichtigsten Rollen und Verantwortlichkeiten im ITIL Major Incident Management.

Was ist Major Incident Management?

Ziel des gesamten Incident-Management-Prozesses ist es, den Lebenszyklus aller Incidents effektiv zu steuern und IT-Services für Benutzer oder Kunden bei einer Unterbrechung so schnell wie möglich wiederherzustellen. Incident Management umfasst neun Teilprozesse, die zusammen dafür sorgen, dass Incident Management durch die IT-Organisation effizient durchgeführt wird. Auch wenn unser Fokus hier auf Major Incident Management liegt, sehen wir uns zunächst an, wie diese Teilprozesse innerhalb des Incident-Management-Prozesses zusammenwirken:

Incident Management Support zielt darauf ab, die Tools, Prozesse, Kompetenzen und Regeln bereitzustellen und zu pflegen, die Support-Techniker benötigen, um Incidents effizient zu bearbeiten.
Incidents, die an den Service Desk gemeldet werden, durchlaufen einen Schritt zur Incident Logging and Categorization, der in der Regel von einem 1st-Level-Techniker durchgeführt wird. Incidents müssen entsprechend ihrer Dringlichkeit erfasst und priorisiert werden, damit sie zeitnah behoben werden. Major Incidents stellen die Incidents mit der höchsten Priorität dar, die vom Service Desk gelöst werden müssen.
Immediate Incident Resolution by 1st-Level Support erfolgt, wenn ein gemeldeter Incident bereits beim ersten Anruf behoben werden kann. 1st-Level-Techniker sollten darauf abzielen, Services mithilfe eines Workarounds so schnell wie möglich wiederherzustellen.
Wenn ein Incident nicht unmittelbar behoben werden kann, ist der nächste Schritt die Incident Resolution by 2nd-Level Support, mit dem Ziel, den Incident so schnell wie möglich zu lösen (innerhalb des vereinbarten Zeitrahmens).
Offene Incidents werden kontinuierlich über einen Prozess namens Incident Monitoring and Escalation überwacht. So wird sichergestellt, dass die IT-Organisation zusätzliche Ressourcen für einen Incident mit hoher Priorität bereitstellen kann, der gelöst werden muss, um Service Level Agreements einzuhalten.
Wenn eine schwerwiegende Unterbrechung auftritt, können ITIL-Organisationen dem Teilprozess Handling of Major Incidents folgen, um ihr Handeln und ihre Entscheidungen bei der schnellstmöglichen Behebung des Incidents zu steuern. Ein Major Incident verursacht eine erhebliche Unterbrechung der Geschäftsaktivitäten und muss mit höchster Dringlichkeit behoben werden. Bei großen Unternehmen kann eine schwerwiegende Unterbrechung zu Umsatzeinbußen in Höhe von Hunderttausenden oder sogar Millionen von Dollar führen. Wenn ein Incident zu einem „Major Incident“ eskaliert wird, setzen Incident Manager alles daran, das Problem umgehend zu lösen, etwa durch den Einsatz spezieller Support-Gruppen oder externer Anbieter mit erweitertem oder spezifischem technischem Know-how.
Der Prozess Incident Closure and Evaluation stellt sicher, dass behobene Incidents auf Qualität überprüft werden und dass alle Informationen zu Incidents korrekt erfasst sind.
Das Incident-Management-Team spielt eine Rolle bei der Bereitstellung von Proactive User Information zu geplanten Serviceausfällen.
Incident-bezogene Informationen und Daten werden den anderen Service-Management-Prozessen über Incident Management Reporting zur Verfügung gestellt.

Major Incidents stellen Incident Manager vor die Aufgabe, Ressourcen effektiv zu benachrichtigen, zu koordinieren und anschließend einzusetzen, um ein Problem innerhalb eines äußerst kurzen Zeitrahmens zu beheben. Während die Mehrheit der gemeldeten Incidents vom 1st- oder 2nd-Level-Tech-Support gelöst wird, erfordern Major Incidents häufig zusätzliche Ressourcen, um eine zeitnahe Lösung sicherzustellen.

Wie qualifiziert ITIL einen Major Incident?

Ausgehend von unserer Betrachtung der Teilprozesse, aus denen sich Incident Management zusammensetzt, lassen sich einige einfache Schlüsse über Major Incident Management und darüber ziehen, wie IT-Organisationen ihre Tickets mit höchster Priorität behandeln. Wir wissen, dass Incidents auf Basis ihrer Dringlichkeit protokolliert und kategorisiert werden. Daher verlassen sich IT-Organisationen regelmäßig auf 1st-Level-Techniker, um Incidents mit hoher Priorität korrekt zu identifizieren. Außerdem wissen wir, dass Incident Monitoring und Eskalation fortlaufende Prozesse sind. Ein 1st-Level-Techniker kann daher Probleme eskalieren, die nicht beim ersten Anruf gelöst werden können oder zusätzliche Ressourcen erfordern.

Damit die IT-Organisation ihren Major-Incident-Management-Prozess einleiten kann, müssen Kriterien vorhanden sein, anhand derer ein Incident als „major“ eingestuft wird. Tatsächlich enthält das ITIL-Framework eine Incident-Prioritätsmatrix, mit der Incident Manager die Reaktion der IT-Organisation auf Incidents strukturieren und priorisieren können. Die Incident-Prioritätsmatrix weist jedem Incident in zwei separaten Dimensionen eine Bewertung von hoch, mittel oder niedrig zu: Dringlichkeit und Auswirkung.

Incidents mit hoher Dringlichkeit sind solche, bei denen der verursachte Schaden schnell zunehmen kann oder die Mitarbeitende daran hindern, zeitkritische Arbeiten zu erledigen. Situationen, in denen sofortiges Handeln verhindern kann, dass aus einem kleineren Incident ein Major Incident wird, gelten ebenfalls als dringend. Das gilt auch für Ausfälle, die einen oder mehrere VIP-Benutzer betreffen. Der Gedanke der Dringlichkeit bedeutet hier, dass die Organisation erheblich davon profitieren kann, das Problem eher früher als später anzugehen.

Incidents werden außerdem hinsichtlich ihrer Auswirkungen auf die Organisation bewertet. Ein Serviceausfall mit hoher Auswirkung betrifft eine große Anzahl von Mitarbeitenden und kann einige Mitarbeitende tatsächlich daran hindern, ihre Arbeit zu erledigen. Incidents mit hoher Auswirkung können das Unternehmen Tausende oder sogar Zehntausende von Dollar (oder mehr) kosten, und auch der Ruf des Unternehmens selbst könnte durch den Ausfall Schaden nehmen.

Bewertungen der Auswirkungen und Dringlichkeit von Incidents werden verwendet, um eine Prioritätsstufe zuzuweisen – üblicherweise zwischen eins und fünf für jeden Incident. Incidents mit Priorität 1 gelten als kritisch: Die IT-Organisation strebt an, sofort auf solche Ereignisse zu reagieren und sie innerhalb einer Stunde zu beheben. Im Gegensatz dazu haben Incidents der Kategorie 5 eine sehr niedrige Priorität: Die IT-Organisation wird innerhalb von 24 Stunden tätig und strebt eine Lösung innerhalb einer Woche an. Auch dreistufige Prioritäten sind üblich.

Viele IT-Organisationen definieren zusätzliche Kriterien, um Major Incidents zu identifizieren und angemessen darauf zu reagieren. Es ist sinnvoll, bestimmte Gruppen von Services, Anwendungen oder Infrastrukturkomponenten als geschäftskritisch einzustufen und den Major-Incident-Handling-Prozess auszulösen, wenn eine dieser Komponenten nicht verfügbar ist und die geschätzte Zeit zur Wiederherstellung des Service sehr lang oder sogar unbekannt ist.

Major Incidents weisen häufig dieselben Merkmale auf wie die oben beschriebenen kritischen Incidents der Kategorie 1. Sie betreffen typischerweise viele Kunden gleichzeitig, häufig mehrere VIP-Kunden, verursachen Kosten für Kunden oder das Unternehmen und können den Ruf des Unternehmens beeinträchtigen. Darüber hinaus zeichnen sich Major Incidents durch den hohen Zeit- und Arbeitsaufwand aus, der voraussichtlich erforderlich ist, um den Incident zu steuern und zu beheben.

Wie sieht der ITIL Major Incident Process Flow aus?

ITIL schlägt einen relativ einfachen Prozessablauf für die Diagnose und das Management von Major Incidents innerhalb der IT-Organisation vor.

Der Incident wird zunächst gemeldet.
Incident Logging and Categorization erfolgt – wenn es sich bei dem Incident um einen Major Incident handelt, wird er voraussichtlich sowohl hinsichtlich der Dringlichkeit als auch der Auswirkungen auf die Organisation hoch bewertet.
Der Incident wird an den 2nd-Level-Support eskaliert.
Der Incident Manager wird darüber informiert, dass ein Major Incident aufgetreten ist und dass die technischen Support-Mitarbeitenden davon ausgehen, dass es sich um einen Major Incident handelt.
Der Incident Manager stellt ein Major Incident Team (MIT) zusammen, bestehend aus IT-Managern und technischen Experten, viele aus dem Unternehmen selbst, einige möglicherweise von außerhalb. Das Team arbeitet gemeinsam daran, den Incident so schnell wie möglich zu beheben.
Sobald ein Workaround gefunden wurde, kann der Incident zur weiteren Untersuchung und zur Entwicklung einer dauerhaften Lösung an das Problem Management gemeldet werden.
Daten aus dem Major-Incident-Management-Prozess werden erfasst und genutzt, um die kontinuierliche Verbesserung der Incident-Management-Praktiken der Organisation voranzutreiben.

Dieser einfache Prozessablauf trägt dazu bei, dass Major Incidents frühzeitig diagnostiziert, schnell an die Spitze der IT-Organisationsstruktur eskaliert und bearbeitet werden, um eine zügige Lösung sicherzustellen. Damit dies gelingt, ist es wichtig, dass 1st-Level-Techniker Major Incidents schnell diagnostizieren und eskalieren und keine wertvolle Zeit damit verlieren, große und komplexe Incidents selbst lösen zu wollen.

Bei einem Major Incident sind Verstöße gegen Service Levels sehr wahrscheinlich. IT-Organisationen müssen nachweisen, dass sie Major Incidents effizient beheben und Service Level Agreements einhalten können.

Was sind die Rollen und Verantwortlichkeiten im ITIL Major Incident Management?

Nach ITIL werden während des Major-Incident-Handling-Prozesses vier separaten Rollen Accountability und Responsibility zugewiesen. Im Folgenden erläutern wir die Rollen und Verantwortlichkeiten im ITIL Major Incident Management, die mit diesen jeweiligen Positionen verbunden sind.

Rolle des 1st-Level Technical Support

Techniker im 1st-Level-Support sind die primären Ansprechpartner für Incident-Meldungen innerhalb der IT-Organisation. In der Regel besetzen sie den IT Service Desk, nehmen Incident-Meldungen von Benutzern und Kunden entgegen, registrieren und kategorisieren diese und unternehmen sofortige Schritte, um den Serviceausfall so schnell wie möglich zu beheben.

Wenn der 1st-Level-Support einen Serviceausfall nicht innerhalb eines akzeptablen Zeitrahmens beheben kann, wird der Incident an technische Expertengruppen (2nd-Level-Support) eskaliert. Techniker im 1st-Level-Support können dafür verantwortlich sein, die eigentliche Arbeit zur Wiederherstellung eines IT-Service zu leisten, wenn ein Major Incident auftritt. Sie sind jedoch nicht dafür verantwortlich, das Major Incident Team zu koordinieren.

Rolle eines Incident Manager

Der Incident Manager übernimmt die vollständige Ownership und Accountability für den Incident-Management-Prozess innerhalb der IT-Organisation, einschließlich aller gemeldeten Major Incidents, die gelöst werden müssen. Sobald ein Major Incident von 1st- oder 2nd-Level-Technikern eskaliert wird, sollte der Incident Manager bestimmen, welche Ressourcen und welches Fachwissen zur Behebung des Incidents erforderlich sind, und ein Major Incident Team zusammenstellen, das das Problem so schnell wie möglich lösen kann.

Rolle eines Major Incident Team

Die Rolle des MIT bei der Bewältigung schwerwiegender IT-Ausfälle besteht darin, den Service mit allen verfügbaren Ressourcen so schnell wie möglich wiederherzustellen. Größe und Zusammensetzung des Teams hängen vom Ausmaß und der Art des Serviceausfalls sowie vom spezifischen Fachwissen und den erforderlichen Maßnahmen zur Wiederherstellung des Service ab.

Das Team kann IT-Manager aus anderen Abteilungen außerhalb des Service Desk umfassen, einschließlich Mitarbeitender, die normalerweise für andere Prozesse wie Change Management verantwortlich sind. Darüber hinaus sind in der Regel technische Support-Mitarbeitende aus dem 1st- und 2nd-Level, IT-Operatoren innerhalb der Organisation und sogar externe technische Spezialisten von außerhalb des Unternehmens beteiligt. Gemeinsam entwickelt und implementiert das Team eine Strategie, um Services so schnell wie möglich wiederherzustellen.

Rolle eines IT-Operators

IT-Operatoren führen tägliche operative Tätigkeiten innerhalb der IT-Organisation aus, etwa die Installation von Geräten im Rechenzentrum, die Sicherung von Daten, die Wartung von Servern und die Sicherstellung, dass geplante Aufgaben ausgeführt werden. IT-Operatoren werden wegen ihrer Vertrautheit mit der IT-Infrastruktur und den IT-Abläufen des Unternehmens geschätzt und können als zusätzliche Arbeitskraft eingesetzt werden, wenn der Incident Manager ein Major Incident Team bildet, um einen schwerwiegenden Serviceausfall zu bewältigen.

ITSM-Software als wertvolle Unterstützung für Major Incident Management

IT-Organisationen können die Effizienz ihrer Servicebereitstellung steigern, indem sie eine softwarebasierte ITSM-Lösung einsetzen, die Best Practices nach ITIL unterstützt.

FAQs

Was ist Major Incident Management in ITIL?

Major Incident Management ist ein Teilprozess des Incident Management, der sich auf die Behebung von Incidents mit hoher Priorität konzentriert, die erhebliche Geschäftsunterbrechungen verursachen. Er umfasst einen strukturierten Prozess, um IT-Services bei einer schwerwiegenden Unterbrechung so schnell wie möglich wiederherzustellen.

Wie qualifiziert ITIL einen Major Incident?

Ein Major Incident wird anhand seiner Auswirkungen und Dringlichkeit qualifiziert. Incidents mit hoher Auswirkung und hoher Dringlichkeit gelten als Major Incidents. Die Auswirkung bezieht sich auf die Anzahl der betroffenen Benutzer oder Geschäftsprozesse, während sich die Dringlichkeit auf die Zeitkritikalität der Behebung des Incidents bezieht.

Was ist der ITIL Major Incident Process Flow?

Der Major Incident Process Flow umfasst:

Incident-Meldung
Incident Logging und Kategorisierung
Eskalation an den 2nd-Level-Support
Benachrichtigung des Incident Manager
Bildung eines Major Incident Team (MIT)
Umsetzung eines Workarounds zur Wiederherstellung der Services
Erfassung von Daten zur kontinuierlichen Verbesserung

Was sind die wichtigsten Rollen und Verantwortlichkeiten im ITIL Major Incident Management?

Zusammenfassung

Was ist Major Incident Management?

Wie qualifiziert ITIL einen Major Incident?

Wie sieht der ITIL Major Incident Process Flow aus?

Was sind die Rollen und Verantwortlichkeiten im ITIL Major Incident Management?

Rolle des 1st-Level Technical Support

Rolle eines Incident Manager

Rolle eines Major Incident Team

Rolle eines IT-Operators

ITSM-Software als wertvolle Unterstützung für Major Incident Management

FAQs

Was ist Major Incident Management in ITIL?

Wie qualifiziert ITIL einen Major Incident?

Was ist der ITIL Major Incident Process Flow?