Les termes "incident" et "problème" peuvent sembler similaires, mais ils jouent des rôles bien distincts dans la gestion des services informatiques. Un incident correspond à une interruption non planifiée d’un service ou d’un composant de l’infrastructure informatique. Exemple : un utilisateur ne peut plus se connecter à une application en raison d’une mise à jour de code défectueuse. Le rétablissement du fonctionnement normal de l’application relève alors de la gestion des incidents.
La gestion des problèmes, quant à elle, vise à aller plus loin : il s’agit d’identifier la cause sous-jacente des incidents et de la corriger afin d’éviter toute récurrence. Exemple : une équipe informatique constate des ralentissements fréquents d’une application. En analysant les journaux, elle met en évidence des blocages réguliers de la base de données et des erreurs de temporisation lors des heures de forte utilisation.
Après une première analyse, l’équipe écarte la latence réseau comme cause potentielle. Une analyse des causes racines (RCA) approfondie, menée avec des méthodes comme les cinq pourquoi ou les diagrammes en arête de poisson, révèle finalement que les requêtes SQL d’un nouveau module de reporting sont mal optimisées. La solution définitive consiste alors à optimiser le code et à recourir à des vues matérialisées pour les données les plus consultées, ce qui réduit la charge sur le module et élimine les ralentissements aux heures de pointe.