Récapitulatif
- Le cadre ITIL définit la gestion des incidents majeurs comme un sous-processus de la gestion des incidents qui vise à résoudre les incidents prioritaires entraînant une perturbation significative de l’activité.
- Un incident majeur se caractérise généralement par une urgence et un impact élevés, affecte de nombreux utilisateurs, des clients VIP ou des services critiques pour l’activité, et exige une attention immédiate afin de limiter les dommages.
- Les principaux rôles impliqués dans la gestion des incidents majeurs comprennent le support technique de niveau 1, le gestionnaire des incidents, l’équipe chargée des incidents majeurs et l’opérateur informatique, chacun ayant des responsabilités distinctes dans l’identification, l’escalade et la résolution des incidents majeurs.
- Une gestion efficace des incidents majeurs repose sur un déroulement de processus structuré qui comprend l’enregistrement de l’incident, sa catégorisation, son escalade, la constitution d’une équipe chargée des incidents majeurs et la mise en œuvre d’une solution de contournement pour rétablir les services aussi rapidement que possible.
Cet article a initialement été publié sur le blog Cherwell, avant l’acquisition par Ivanti.
Le cadre ITIL® est la référence mondiale en matière de gestion des services informatiques (ITSM). Dans ses versions les plus récentes, ITIL comprend 26 processus distincts et quatre fonctions, organisés autour des cinq phases du cycle de vie des services informatiques. Les processus ITIL aident les organisations à définir leur stratégie concernant les services qu’elles proposeront, à concevoir efficacement ces services, à les créer et les déployer, à les exploiter et, enfin, à faciliter l’amélioration continue des services que l’organisation a choisi de déployer.
Alors que nous attendions avec impatience ITIL 4, ITIL v3 et la version 2011 qui lui a succédé comprenaient cinq volumes, chacun correspondant à une phase du cycle de vie des services :
- Stratégie des services
- Conception des services
- Transition des services
- Exploitation des services
- Amélioration continue des services
Dans le manuel Exploitation des services, les organisations ITIL peuvent trouver des informations sur les quatre fonctions d’ITIL, notamment le centre de services, essentiel pour faciliter le processus de gestion des incidents. ITIL définit un incident comme une interruption non planifiée ou une baisse de qualité d’un service informatique. Tous les incidents sont généralement signalés à l’organisation informatique et gérés par celle-ci via un centre de services.
Dans ce guide, nous nous intéressons à l’un des sous-processus les plus importants de la gestion des incidents : la gestion des incidents majeurs, ou Major Incident Management. Nous expliquerons comment ils sont définis dans ITIL et comment les organisations informatiques s’emploient à les résoudre, puis nous passerons en revue les principaux rôles et responsabilités liés à la gestion des incidents majeurs ITIL.
Qu’est-ce que la gestion des incidents majeurs ?
L’objectif du processus global de gestion des incidents est de gérer efficacement le cycle de vie de tous les incidents et de rétablir les services informatiques pour les utilisateurs ou les clients aussi rapidement que possible lorsqu’une interruption survient. La gestion des incidents comprend neuf sous-processus qui fonctionnent ensemble pour garantir qu’elle est menée efficacement par l’organisation informatique. Même si nous nous concentrons ici sur la gestion des incidents majeurs, examinons comment ces sous-processus s’articulent au sein du processus de gestion des incidents :
- Le support à la gestion des incidents vise à fournir et à maintenir les outils, processus, compétences et règles dont les techniciens support ont besoin pour traiter efficacement les incidents.
- Les incidents signalés au centre de services passent par une étape d’enregistrement et de catégorisation, généralement réalisée par un technicien de niveau 1. Les incidents doivent être enregistrés et priorisés selon leur urgence afin de garantir leur résolution dans les délais. Les incidents majeurs représentent les incidents de plus haute priorité que le centre de services doit résoudre.
- La résolution immédiate des incidents par le support de niveau 1 intervient lorsqu’un incident signalé peut être résolu dès le premier appel. Les techniciens de niveau 1 doivent chercher à rétablir les services aussi rapidement que possible à l’aide d’une solution de contournement.
- Lorsqu’un incident ne peut pas être résolu immédiatement, l’étape suivante est la résolution de l’incident par le support de niveau 2, avec pour objectif de le résoudre aussi rapidement que possible, dans les délais convenus.
- Les incidents en cours sont surveillés en continu au moyen d’un processus appelé surveillance et escalade des incidents, afin de garantir que l’organisation informatique puisse allouer des ressources supplémentaires à un incident prioritaire qui doit être résolu pour maintenir les accords de niveau de service.
- Lorsqu’une interruption majeure se produit, les organisations ITIL peuvent suivre le sous-processus de traitement des incidents majeurs pour guider leurs actions et leurs décisions afin de résoudre l’incident aussi rapidement que possible. Un incident majeur provoque une interruption grave des activités de l’entreprise et doit être résolu avec la plus grande urgence. Pour les grandes organisations, une interruption majeure peut entraîner des centaines de milliers, voire des millions de dollars de pertes de revenus. Lorsqu’un incident est escaladé en « incident majeur », les gestionnaires des incidents mettent tout en œuvre pour résoudre le problème rapidement, notamment en faisant appel à des groupes de support spécialisés ou à des fournisseurs tiers disposant de connaissances techniques plus avancées ou plus spécifiques.
- Le processus de clôture et d’évaluation des incidents garantit que les incidents résolus font l’objet d’un contrôle qualité et que toutes les informations les concernant sont correctement enregistrées.
- L’équipe de gestion des incidents contribue à fournir des informations proactives aux utilisateurs concernant les interruptions de service planifiées.
- Les informations et données relatives aux incidents sont transmises aux autres processus de gestion des services via le reporting de gestion des incidents.
Les incidents majeurs obligent les gestionnaires des incidents à informer et coordonner efficacement les ressources, puis à les mobiliser pour résoudre un problème dans un délai extrêmement court. Si la majorité des incidents signalés sont résolus par le support technique de niveau 1 ou 2, les incidents majeurs nécessitent souvent des ressources supplémentaires afin de garantir une résolution rapide.
Comment ITIL qualifie-t-il un incident majeur ?
À partir de notre examen des sous-processus qui composent la gestion des incidents, nous pouvons tirer quelques conclusions simples sur la gestion des incidents majeurs et sur la façon dont les organisations informatiques traitent leurs tickets les plus prioritaires. Nous savons que les incidents sont enregistrés et catégorisés selon leur urgence ; les organisations informatiques s’appuient donc régulièrement sur des techniciens de niveau 1 pour identifier correctement les incidents prioritaires. Nous savons également que la surveillance et l’escalade des incidents sont des processus continus : un technicien de niveau 1 est donc en mesure d’escalader les problèmes qui ne peuvent pas être résolus dès le premier appel ou qui peuvent nécessiter des ressources supplémentaires.
Pour que l’organisation informatique lance son processus de gestion des incidents majeurs, des critères doivent permettre de qualifier un incident de « majeur ». En effet, le cadre ITIL comprend une matrice de priorité des incidents que les gestionnaires des incidents peuvent utiliser pour organiser et prioriser la réponse de l’organisation informatique. Cette matrice attribue à chaque incident une note élevée, moyenne ou faible selon deux dimensions distinctes : l’urgence et l’impact.
Les incidents à forte urgence sont ceux dont les dommages peuvent s’aggraver rapidement, ou qui empêchent les collaborateurs d’effectuer un travail soumis à des délais. Les situations dans lesquelles une action immédiate peut empêcher qu’un incident mineur ne devienne un incident majeur sont également considérées comme urgentes, tout comme les interruptions qui affectent un ou plusieurs utilisateurs VIP. Ici, la notion d’urgence signifie que l’organisation peut tirer des bénéfices importants d’une résolution du problème plus rapide plutôt que tardive.
Les incidents sont également évalués en fonction de leur impact sur l’organisation. Une interruption de service à fort impact affecte un grand nombre de collaborateurs et peut même empêcher certains d’entre eux d’effectuer leur travail. Les incidents à fort impact peuvent coûter à l’entreprise des milliers, voire des dizaines de milliers de dollars ou plus, et l’interruption peut nuire à la réputation même de l’entreprise.
Les évaluations de l’impact et de l’urgence des incidents servent à attribuer un niveau de priorité, généralement compris entre un et cinq pour chaque incident. Les incidents de priorité 1 sont considérés comme critiques : l’organisation informatique vise à intervenir immédiatement sur ces événements et à les corriger en une heure. À l’inverse, les incidents de catégorie 5 sont très peu prioritaires : l’organisation informatique les traitera dans les 24 heures et visera une résolution en une semaine. Les priorités à trois niveaux sont également courantes.
De nombreuses organisations informatiques définissent des critères supplémentaires pour identifier les incidents majeurs et y répondre de manière appropriée. Il est utile de désigner certains groupes de services, d’applications ou de composants d’infrastructure comme critiques pour l’activité, et de déclencher le processus de traitement des incidents majeurs lorsque l’un de ces composants devient indisponible et que le délai estimé de rétablissement du service est extrêmement long, voire inconnu.
Les incidents majeurs présentent souvent les mêmes caractéristiques que les incidents critiques de catégorie 1 décrits ci-dessus. Ils affectent généralement de nombreux clients à la fois, touchent souvent plusieurs clients VIP, entraînent des coûts pour les clients ou pour l’entreprise, et peuvent nuire à la réputation de l’entreprise. En outre, les incidents majeurs se caractérisent par le volume important de temps et d’efforts qui sera probablement nécessaire pour les gérer et les résoudre.
Quel est le déroulement du processus ITIL de gestion des incidents majeurs ?
ITIL propose un déroulement de processus relativement simple pour diagnostiquer et gérer les incidents majeurs au sein de l’organisation informatique.
- L’incident est d’abord signalé.
- L’enregistrement et la catégorisation de l’incident ont lieu : s’il s’agit d’un incident majeur, il recevra probablement une note élevée à la fois pour l’urgence et pour l’impact sur l’organisation.
- L’incident est escaladé vers le support de niveau 2.
- Le gestionnaire des incidents est informé qu’un incident majeur s’est produit et que le personnel du support technique estime qu’il s’agit d’un incident majeur.
- Le gestionnaire des incidents constitue une équipe chargée des incidents majeurs (MIT), composée de responsables informatiques et d’experts techniques, dont beaucoup viennent de l’entreprise, mais certains peuvent être externes. L’équipe travaillera ensemble pour résoudre l’incident aussi rapidement que possible.
- Une fois qu’une solution de contournement est trouvée, l’incident peut être transmis à la gestion des problèmes en vue d’une investigation ultérieure et de l’élaboration d’une solution permanente.
- Les données issues du processus de gestion des incidents majeurs sont collectées et utilisées pour favoriser l’amélioration continue des pratiques de gestion des incidents de l’organisation.
Ce déroulement simple du processus permet de garantir que les incidents majeurs sont diagnostiqués tôt, rapidement escaladés au plus haut niveau de l’organisation informatique, puis traités afin d’assurer une résolution rapide. Pour cela, il est important que le personnel technique de niveau 1 diagnostique et escalade rapidement les incidents majeurs, sans perdre un temps précieux à essayer de résoudre lui-même des incidents importants et complexes.
Lors d’un incident majeur, les violations des niveaux de service sont très probables. Les organisations informatiques doivent démontrer leur capacité à résoudre efficacement les incidents majeurs et à maintenir les accords de niveau de service.
Quels sont les rôles et responsabilités de la gestion des incidents majeurs ITIL ?
Dans ITIL, quatre rôles distincts se voient attribuer des responsabilités lors du processus de traitement des incidents majeurs. Ci-dessous, nous détaillons les rôles et responsabilités de la gestion des incidents majeurs ITIL associés à chacun de ces intitulés de poste.
Rôle du support technique de niveau 1
Les techniciens du support de niveau 1 sont les principaux interlocuteurs pour les signalements d’incidents au sein de l’organisation informatique. En général, ils travaillent au centre de services informatique, reçoivent les signalements d’incidents des utilisateurs et des clients, les enregistrent et les catégorisent, puis entreprennent immédiatement des actions pour rétablir le service interrompu aussi rapidement que possible.
Lorsque le support de niveau 1 ne peut pas corriger une interruption de service dans un délai acceptable, l’incident est escaladé vers des groupes d’experts du support technique (support de niveau 2). Les techniciens du support de niveau 1 peuvent être chargés d’effectuer le travail concret de rétablissement d’un service informatique lorsqu’un incident majeur survient, mais ils ne sont pas responsables de la coordination de l’équipe chargée des incidents majeurs.
Rôle du gestionnaire des incidents
Le gestionnaire des incidents assume la pleine responsabilité du processus de gestion des incidents au sein de l’organisation informatique, y compris de tous les incidents majeurs signalés et à résoudre. Lorsqu’un incident majeur est escaladé par le personnel technique de niveau 1 ou 2, le gestionnaire des incidents doit déterminer les ressources et l’expertise nécessaires pour le résoudre, puis constituer une équipe chargée des incidents majeurs capable de résoudre le problème aussi rapidement que possible.
Rôle d’une équipe chargée des incidents majeurs
Le rôle de la MIT dans le traitement des interruptions informatiques majeures est de rétablir le service aussi rapidement que possible en utilisant toutes les ressources disponibles. La taille et la composition de l’équipe dépendent de l’ampleur et de la nature de l’interruption de service, ainsi que de l’expertise spécifique et des actions requises pour rétablir le service.
L’équipe peut inclure des responsables informatiques d’autres départements en dehors du centre de services, notamment des collaborateurs habituellement chargés d’autres processus, comme la gestion des changements. En outre, le personnel de support technique de niveau 1 et 2, les opérateurs informatiques de l’organisation et même des spécialistes techniques tiers externes à l’entreprise sont généralement impliqués. Ensemble, l’équipe élabore et met en œuvre une stratégie pour rétablir les services aussi rapidement que possible.
Rôle d’un opérateur informatique
Les opérateurs informatiques effectuent les activités opérationnelles quotidiennes au sein de l’organisation informatique, comme l’installation d’équipements dans le centre de données, la sauvegarde des données, la maintenance des serveurs et la bonne exécution des tâches planifiées. Les opérateurs informatiques sont appréciés pour leur connaissance de l’infrastructure et des opérations informatiques de l’entreprise, et ils peuvent être sollicités comme main-d’œuvre supplémentaire lorsque le gestionnaire des incidents constitue une équipe chargée des incidents majeurs pour traiter une interruption de service majeure.
Un logiciel ITSM, un atout pour la gestion des incidents majeurs
Les organisations informatiques peuvent accroître l’efficacité de leur prestation de services en adoptant une solution ITSM logicielle qui prend en charge les bonnes pratiques ITIL.
FAQ
Qu’est-ce que la gestion des incidents majeurs dans ITIL ?
La gestion des incidents majeurs est un sous-processus de la gestion des incidents qui vise à résoudre les incidents prioritaires entraînant une perturbation significative de l’activité. Elle s’appuie sur un processus structuré pour rétablir les services informatiques aussi rapidement que possible lorsqu’une interruption majeure survient.
Comment ITIL qualifie-t-il un incident majeur ?
Un incident majeur est qualifié en fonction de son impact et de son urgence. Les incidents présentant un impact et une urgence élevés sont considérés comme majeurs. L’impact correspond au nombre d’utilisateurs ou de processus métier affectés, tandis que l’urgence est liée au caractère critique du délai de résolution de l’incident.
Quel est le déroulement du processus ITIL de gestion des incidents majeurs ?
Le déroulement du processus de gestion des incidents majeurs comprend :
- Signalement de l’incident
- Enregistrement et catégorisation de l’incident
- Escalade vers le support de niveau 2
- Notification du gestionnaire des incidents
- Constitution d’une équipe chargée des incidents majeurs (MIT)
- Mise en œuvre d’une solution de contournement pour rétablir les services
- Collecte des données pour l’amélioration continue