Störungs-management: Ein Überblick

Störungs-management: Ein Überblick

Ein typischer Montagmorgen, an Ihrem Servicedesk läuft alles wie gewohnt. Plötzlich kommt ein Alarmierungstickets herein: ein maßgeblicher Service ist ausgefallen. In den nächsten 15 Minuten häufen sich die Tickets, die sich um dasselbe Problem drehen. Vielleicht ist Ihre Website ausgefallen, die Software im Ladenlokal hat ihren Dienst quittiert, vielleicht ist doch etwas mit noch weiterreichenden Konsequenzen eingetreten – völliger Zusammenbruch der Börse oder einer Reihe von Flugzeugabstürzen. Wenn Ihr Geschäft durch IT-Probleme so massiv beeinträchtigt wird, dass Umsatz und/oder Ihr Ruf auf dem Spiel stehen, haben Sie als mit einem maßgeblichen Vorfall, einer Störung zu tun.

Nun kommt es allein auf Ihre Reaktion an, die den Unterschied beim Eingrenzen der Störungsauswirkungen bewirkt und dafür sorgt, dass alles schnell wieder in geregelten Bahnen verläuft. Zeit ist Geld, heißt es bekanntlich. Und in diesem Fall darf man dies wortwörtlich nehmen. Wenn es solide Störungsmanagementabläufe in Ihrer Organisation gibt, können Sie schnell auf Störungen reagieren und diese in den meisten Fällen im Handumdrehen beheben. Wenn solche Prozesse fehlen, wird es dringend Zeit, einen Notfallreaktionsplan aufzustellen, den man auch Störungsreaktionsablauf nennen kann.

In der heutigen Zeit sind maßgebliche Zwischenfälle nahezu an der Tagesordnung. Gemäß einer Studie der „Information Technology Intelligence Consulting“ schlägt ein nur einstündiger Ausfall bei 98 % sämtlicher Organisationen mit einem Verlust von gut 100.000 $ zu Buche. Dies untermauert die Wichtigkeit wirksamer Störungsmanagementabläufe, die es mit maßgeblichen Zwischenfällen effektiv und effizient aufnehmen können.

Schlicht jede Organisation möchte Störungen am liebsten komplett ausschließen. Unterm Strich jedoch müssen wir uns eingestehen, dass ein völliger Ausschluss gänzlich unmöglich ist, uns lediglich die Möglichkeit offensteht, uns gut auf solche Zwischenfälle vorzubereiten.

In diesem Ratgeber schauen wir uns an, wie man einen effektiven Störungsmanagementablauf einrichtet, werfen einen Blick auf häufige Fehler, die Ihrem Störungsmanagement Knüppel zwischen die Beine werfen können, befassen uns auch mit bewährten Praktiken zur Verbesserung Ihrer Störungsmanagementprozesse.

Aber zunächst – was macht eigentlich einen Vorfall zu einer Störung?

Was ist eine Störung?

Was ist eine Störung

Eine Störung ist ein dringliches Problem mit starken Auswirkungen, die gewöhnlich die gesamte Organisation oder einen bedeutenden Teil dieser beeinträchtigen. Eine Störung führt fast immer dazu, dass Services einer Organisation nicht mehr zur Verfügung stehen. Dies wiederum wirkt sich deutlich auf den Betrieb, letztendlich auch auf die finanzielle Lage aus. Im Grunde können sich Störungen auf zwei unterschiedliche Weisen auf die Services einer Organisation auswirken:

  • Kunden können nicht mehr auf die Services der Organisation zugreifen. Der Cloudflare-Ausfall im Juli 2019 ist ein „gutes“ Beispiel für eine Störung, die viele Kunden betraf. Dieser maßgebliche Ausfall beeinträchtigte nahezu das halbe Internet, führte dazu, dass Millionen Internetanwender von Internetdienstleistungen ausgeschlossen wurden.
  • Mitarbeiter können ihre Arbeit nicht mehr oder nicht mehr rechtzeitig abschließen; Unterbrechungen des Geschäftsbetriebes sind die Folge. Beim IndiGo-Ausfall im November 2019 wurde der Checkin der Fluggesellschaft in Mitleidenschaft gezogen, was zu langen Verzögerungen führte, unter denen tausende Passagiere zu leiden hatten.

Ein gut vorbereiteter Servicedesk ist für die Handhabung maßgeblicher Zwischenfälle gewappnet, kann zeitnah Lösungen oder Zwischenlösungen umsetzen, mit deren Hilfe sich Störungsauswirkungen mindern und in den Griff bekommen lassen.

Die vier Stufen einer Störung

Bei Störungen unterscheidet man gewöhnlich zwischen vier Stufen:

Die vier Stufen einer Störung

Der Störungs-management-ablauf

Ein Störungsmanagementablauf ist ein absolutes Muss für Organisationen, da dieser geschäftliche Auswirkungen einer Störung eng begrenzt. In erster Linie setzt sich ein Störungsmanagementablauf aus folgenden Schritten zusammen:

1. Identifizierung

Identifizierung

1. Identifizierung

Hauptvorfall identifizieren::

Der erste Schritt besteht darin, mögliche Hauptvorfälle klar zu identifizieren. Dabei ist es wichtig, dass Organisationen auf mehrere Methoden zur Identifizierung von Bedrohungen zurückgreifen können. Maßgebliche Zwischenfälle können von Technikern entsprechend markiert werden, wenn ungewöhnliche Tickets eingehen. Alternativ lassen sich viele Störfälle auch durch elektronische Lösungen wie Netzwerküberwachungswerkzeuge erkennen, die Netzwerkprobleme automatisch markieren und den Servicedesk per Ticket alarmieren können. Obendrein können Organisationen auch eine spezielle Hotline einrichten, über die Servicedesk-Mitarbeiter Störungen melden können.

Beteiligte informieren:

Wenn eine Störung identifiziert wurde, müssen sämtliche maßgeblich Beteiligten darüber informiert werden. Es gibt vier Hauptgruppen, die über Störungen ins Bild gesetzt werden müssen:

  • Technisches Team: Sofortiges Informieren des technischen Teams ist unerlässlich, damit sich dieses schnell auf einen Kurs zur Behebung des Problems verständigen kann.
  • Management: Wenn die obere Führungsebene, zum Beispiel der Vorstand Informationstechnologie (CIO) unverzüglich informiert wird, trägt dies deutlich zur Definition von Verantwortlichkeiten bei. In Organisationen sollte auch stets das gesamte Management über sämtliche Schritte informiert werden, die zur Störungseingrenzung und -behebung unternommen werden.
  • Maßgeblich Beteiligte: Abteilungsleiter und Geschäftsführung der Serviceebene müssen ebenfalls über Störungen informiert und mit regelmäßigen Statusaktualisierung versorgt werden.
  • Anwender/Mitarbeiter: Auch Anwender oder Mitarbeiter müssen erfahren, welche Services in Folge einer Störung nicht mehr zur Verfügung stehen.

2. Eindämmung

Eindämmung

2. Eindämmung

Störungsteam aufstellen:

Ein Störungsteam (auch kurz MIT genannt) setzt sich aus Technikern, Geschäftsleitung auf Serviceebene und weiteren maßgeblich Beteiligten zusammen. Gelegentlich wird auch externes Personal mit spezialisierten Kenntnissen zur Bewältigung maßgeblicher Störungen hinzugezogen. Das Störungsteam erarbeitet gemeinsam Maßnahmen zum Beheben der Störung sowie zur Wiederherstellung des regulären Geschäftsbetriebes.

Konferenzbrücke einrichten:

Eine Konferenzbrücke, oft auch schlicht als Telefonkonferenz bezeichnet, erleichtert effektive Problemlösung und zentralisierte Kommunikation. Eine solche Brücke dient als klar definierter, schneller Kommunikationskanal zwischen Störungsteammitgliedern.

Spezielle Einsatzzentrale vorbereiten:

Ein spezieller als Einsatzzentrale eingerichteter Raum ermöglicht Störungsteammitgliedern, bei Bedarf zusammenzukommen und gemeinsam an Lösungsansätzen zu arbeiten. Dies hilft der Zusammenarbeit auf die Sprünge, führt gewöhnlich zu schnelleren Lösungen.

Problemticket zum Identifizieren zugrundeliegender Probleme erstellen:

Ein Problemticket kann zum Erkennen und besseren Verständnis der Ursache der jeweiligen Störung erstellt werden. Dies kann durch Adressieren des Störungsgrundes dem Auftreten ähnlicher Störungen in der Zukunft entgegenwirken.

3. Lösung

Lösung

3. Lösung

Lösungsplan als Änderung implementieren:

Zu den bewährten Praktiken zählt, Korrekturen einer Störung als Änderung umzusetzen, damit die Lösung ordnungsgemäß dokumentiert und implementiert wird. Die Umsetzung der Lösung als Änderung minimiert darüber hinaus Risiken hinsichtlich Beeinträchtigung anderer Services als Folge halbherziger Behebung.

4. Wartung

Wartung

4. Wartung

Nachprüfung veranlassen:

Es ist wichtig, nach einer gewissen Zeit noch einmal einen Blick auf den Vorfall zu werfen und sich davon zu überzeugen, dass das Problem wirklich gelöst wurde. Falls zugrunde liegende Probleme ungelöst belassen wurden, ist die nächste Störung schon so gut wie vorprogrammiert.

Schnörkellose Dokumentation:

Eine Dokumentation des gesamten Lösungsablaufs zum Beheben der Störung hilft der Organisation, sich auf ähnliche Vorfälle in der Zukunft vorzubereiten. Durch ordnungsgemäße Dokumentation vergangener Vorfälle kann die Organisation die bereits bewährte Lösung sofort umsetzen, falls es künftig zu einer ähnlichen Störung kommen sollte, damit oft negative Auswirkungen vermindern oder komplett verhindern.

Metriken bemessen:

Eine sinnvolle Bemessung der Servicedesk-Leistung ermöglicht eine praxisnahe Einschätzung der Servicedesk-Effizienz und des gesamten Störungsmanagements. Zu wichtigen Metriken zählen durchschnittliche Bestätigungszeit (MTTA), durchschnittliche Lösungszeit (MTTR), Störungsgesamtanzahl sowie durchschnittliche Ausfallzeit bei Störungen.

Setzen Sie alle Segel zum effektiven Störungsmanagement!

ITIL-Ablaufdiagramm zum Störungsmanagement

ITIL-Ablaufdiagramm zum Störungsmanagement

Störungs-management-Rollen und -Verant-wortlichkeiten

Störungsmanagement-Rollen und -Verantwortlichkeiten

Maßgebliche Vorfälle verlangen nach spezialisiertem Personal, das sich des Vorfalls und dessen Lösung erfolgreich annimmt. Zu Störungsmanagementrollen zählen:

Servicedesk-Techniker:

Servicedesk-Techniker bilden sozusagen die erste Verteidigungslinie bei maßgeblichen Zwischenfällen. Techniker analysieren Vorfalltickets, eskalieren diese an den Vorfallmanager. Obendrein sind ServiceDesk-Techniker auch an der Lösungsimplementierung beteiligt.

Störungsmanager:

Der Störungsmanager ist der „Besitzer“ der jeweiligen Störung. Zu dessen Rolle zählen Klassifizierung des Vorfalls als Störung sowie Gewährleistung, dass der Störungsmanagementablauf präzise befolgt, die Störung so schnell wie möglich beseitigt wird. Störungsmanager dienen als Hauptansprechpartner bei jeglichen Informationen zur Störung, leiten das Störungsteam.

Störungsteam (MIT):

Ein Störungsteam setzt sich aus Spezialisten zusammen, welche die Störung analysieren, anschließend einen Aktionsplan zur Handhabung des Problems aufstellen. Das Störungsteam besteht idealerweise aus Servicedesk-Technikern, Führungspersonal der Serviceebene, technischen Mitarbeitern, sonstigen maßgeblich Beteiligten sowie externen Beratern, sofern dies im Rahmen der Situation sinnvoll erscheint.

Technische Mitarbeiter:

Spezialisierte Mitarbeiter, die sich um Aufrechterhaltung von Infrastruktur und Betrieb kümmern. Dazu zählen auch Systemadministratoren, Netzwerkadministratoren und Datensicherheitsbeauftragte. Technische Mitarbeiter unterstützen die Störungsbehebung, zeichnen primär für die Umsetzung Störungsbehebung verantwortlich.

Änderungsmanager:

Der Änderungsmanager ist der „Besitzer“ der Änderung, die zum Beheben der Störung ersonnen und umgesetzt wird. Der Änderungsmanager zeichnet vollständig für sämtliche Belange rund um das Änderungsticket verantwortlich.

Problemmanager:

Sofern ein Problem als Reaktion auf die Störung erstellt wurde, zeichnet der Problemmanager für das Problemticket verantwortlich, ist dessen „Besitzer“. Der Problemmanager versucht, den Ursachen des Vorfalls auf den Grund zu gehen, sorgt im besten Fall dafür, dass sich der Vorfall nicht wiederholt, gewährleistet alternativ, dass die Organisation gründlich auf eine Wiederholung des Vorfalls vorbereitet wird.

Externe Berater oder Drittanbieter:

In manchen Fällen bedarf es hochgradig spezialisierter Fachleute, um den Vorfall klar einzugrenzen und zu beheben. Der Störungsmanager identifiziert den Personalbedarf, ergänzt das Störungsteam mit den nötigen Fachleuten, damit die Störung möglichst schnell und zuverlässig behoben werden kann.

ZVKI-Matrix (auch RACI-Matrix)

Die ZVKI-Matrix definiert die Verantwortlichkeiten unterschiedlicher Beteiligter eines Ablaufs. Die nachstehende Tabelle definiert Rollen und Verantwortlichkeiten maßgeblich Beteiligter im Rahmen des Störungsmanagementablaufs.

Ablauf / Rollen Servicedesk-Techniker Störungs-manager Störungsteam Technische Mitarbeiter Änderungs-manager Problem-manager Externe Berater
Identifizierung:
Störung feststellen K V Z K I I I
Beteiligte informieren K V Z I I I I
Eindämmung:
Störungsteam aufstellen I Z/V K K I K I
Konferenzbrücke einrichten I V Z K I K I
Spezielle Einsatzzentrale einrichten I V Z I I K I
Problemticket zum Identifizieren zugrundeliegender Probleme erstellen I V Z K I I I
Lösung:
Lösungsplan als Änderung implementieren I I I Z V K K
Wartung:
Nachprüfung veranlassen I K I Z V K I
Klare Dokumentation K V Z K K K K
Metriken bemessen I V Z I I I K

* Z – Zuständig, V – Verantwortlich, K – Konsultiert, I – Informiert

Fünf beliebte Fehler beim Störungs-management

Fünf beliebte Fehler beim Störungsmanagement

Fünf typische Fehler, die beim Änderungsmanagement recht häufig vorkommen:

  1. Manuelle Kommunikation und Eskalation:

    Die größte Herausforderung besteht beim Störungsmanagement eindeutig in der Kommunikation. Im Falle einer Störung müssen zahlreiche Beteiligte über den Status des Vorfalls, seinen Schweregrad und darüber informiert werden, welche Problemlösungsansätze bereits zur Behebung umgesetzt wurden. Solche Informationen manuell zu kommunizieren ist eine Sisyphusaufgabe, die sehr leicht zu inkonsistenter Kommunikation führt, die ein Problem gewöhnlich eher verschlimmert als verbessert. Durch Automatisierung des Ablaufs werden maßgeblich Beteiligte automatisch über den gesamten Ticketlebenszyklus informiert, während sich der Störungsmanager ganz auf die Behebung des Problems konzentrieren kann.

  2. Ineffektive Kanäle zur Störungsmeldung:

    Jeder Servicedesk erhält tagtäglich dutzende oder gar hunderte Tickets, die banale Dinge wie Notebook-aufladen vergessen bis hin zu Serviceanfragen abdecken. Und natürlich können sich unter einem solchen Ticketstapel durchaus ein paar potenziell sehr unangenehme Störungen verbergen. Wenn kein separater Kanal zur Meldung echter Störungen eingerichtet wird, verzögert sich die Identifikation tatsächlicher Störfälle oft beträchtlich.

  3. Doppelte Bemühungen:

    Wenn Aufgaben nicht auf organisierte Weise delegiert werden, kommt es leicht zu doppelten Ausführungen im Störungsteam. Daher ist es wichtig, Tickets sinnvoll zu verknüpfen und das Störungsteam darüber zu informieren, welches Mitglied mit welcher Aufgabe betraut wurde.

  4. Schlechte Dokumentation:

    Mangelnde Dokumentation zwingt das Störungsteam, das Rad jedes Mal neu zu erfinden, wenn eine ähnliche Störung auftritt. Dies führt zu Verzögerungen bei der Störungsbehebung und verursacht unnötige Ausfallzeiten.

  5. Keine Ursachenanalyse:

    Wie beim Vorfallmanagement kommt es auch beim Störungsmanagement nicht selten vor, dass wichtige Details schlicht übersehen werden, da es erst einmal darum geht, das Problem schnell aus der Welt zu schaffen und alles wieder ans Netz zu bringen. Wenn nun keine vernünftige Verflechtung mit dem Problemmanagement besteht, verschwinden die Ursachen einer Störung unter dem Teppich, die Organisation wird sich schon bald wieder an ähnlichen Vorfällen „erfreuen“ können.

Fünf bewährte Störungs-management-praktiken

Fünf bewährte Störungsmanagementpraktiken

Hier ein paar bewährte Ansätze zum erfolgreichen Störungsmanagement.

  1. Mehrere Kanäle zur Störungsmeldung schaffen:

    Wenn es darum geht, Störfälle in den Griff zu bekommen, spielt Zeit eine der wichtigsten Rollen. Für nahezu jede Organisation ist es lebenswichtig, Störfälle so schnell wie möglich nach deren Auftreten zu identifizieren und zu klassifizieren. Wenn Sie Anwendern mehrere Möglichkeiten zum Melden von Vorfällen geben, beschleunigt und vereinfacht dies den gesamten Ablauf. Sie können Möglichkeiten zur Ticketerstellung per E-Mail oder über ein Webportal schaffen, sogar eine eigene Hotline zum Melden möglicher Störungen einrichten. Überdies erweist sich eine gute Netzwerküberwachungssoftware oft ebenfalls als äußerst hilfreich, wenn es darum geht, proaktiv Anomalien aufzuspüren, die sich schnell zu echten Störungen auswachsen können.

  2. Servicedesk-Abläufe automatisieren:

    Tempo und Geschwindigkeit spielen bei der Eingrenzung von Störungsauswirkungen eine wichtige Rolle. Durch Automatisieren unterschiedlicher Servicedesk-Abläufe befreien Sie Techniker von wiederholten, zeitraubenden Aufgaben – zum Beispiel dem Benachrichtigen anderer Beteiligter. Ein automatisiertes Benachrichtigungssystem und Aufstellung sinnvoller Störungsworkflows schaffen deutliche Hilfen, die Lösungszeiten verkürzen und eine effiziente Struktur in Ihren Störungsmanagementablauf bringen.

  3. Zeitnahe, relevante Kommunikation:

    Das Management Ihrer Organisation und wichtige Beteiligte sollten stets über sämtliche Störungen auf dem Laufenden gehalten werden. Wenn das Management stets eingebunden bleibt, erhalten Sie zur Störungsbehebung notwendige Genehmigungen und Berechtigungen deutlich einfacher und schneller. Zeitnahe Kommunikation gewährleistet, dass sämtliche zur Störungsbehebung benötigten Mitarbeiter auf dem Laufenden bleiben, effektiv miteinander arbeiten können. Obendrein können so Endanwender über mögliche Ausfallzeiten informiert werden, damit es diese nicht kalt erwischt.

  4. Schnörkellose Dokumentation:

    Eine klare, eindeutige Dokumentation hilft dem Störungsmanager, sämtliche zum Beheben einer Störung ausgeführten Tätigkeiten, zusätzlich Auswirkungen, betroffene Services und weitere wichtige Angaben zur Störung aufzuzeichnen. Eine solche Dokumentation ist zum Einen wichtig, um die Vorteile eines soliden Störungsmanagementablaufs und dessen Rentabilität dem Management gegenüber zu belegen. Zusätzlich sorgt eine schnörkellose Dokumentation auch dafür, dass ähnliche Störungen künftig vermieden oder deutlich abgemildert werden können.

  5. Intensive Integration mit ITOM-Software:

    Eine solide Integration mit ITOM-Software ermöglicht der IT-Abteilung, Störungen proaktiv anzugehen. Eine nur reaktive Störungsidentifikation verlässt sich darauf, dass Störungen durch Eingang entsprechender Tickets an den Tag treten. Bleiben diese aus, bleibt die Störung unerkannt. Proaktive Störungsmanagementabläufe mit ITOM-Integration hingegen können auf Systeme wie Netzwerküberwachung und andere Services zurückgreifen, so Anomalien eigenständig signalisieren, die zu echten Störfälle mutieren können.

Erfahren Sie, wie Sie Ihren ganz eigenen Störungsmanagementablauf mit bewährten Mitteln einrichten.

Störungsmanagement-Metriken und -Leistungskennzahlen

Bei sämtlichen Fragen rund um Störungsmanagement gibt es einige wichtige Metriken und Leistungskennzahlen, die es zu verfolgen gilt.

Leistungskennzahl Formel Anmerkungen
Durchschnittliche Lösungszeit (MTTR) Die Zeit, die durchschnittlich zwischen Meldung und Lösung eines Problems vergeht. Dies signalisiert, wie schnell Ihr Servicedesk Störungen beheben kann. Eine kürzere durchschnittliche Lösungszeit ist ein Zeichen dafür, dass Ihr Störungsmanagement effektiv und effizient arbeitet.
Durchschnittliche Bestätigungszeit (MTTA) Die Zeit, die durchschnittlich bis zur Reaktion auf eine Störung vergeht. Eine kürzere durchschnittliche Bestätigungszeit belegt, dass Ihr Servicedesk schnell auf Störungen reagiert.
Durchschnittszeit zwischen Ausfällen (MTBF) Die Zeit, die durchschnittlich zwischen Ausfällen vergeht. Diese berechnet sich durch Division der gesamten Verfügbarkeitszeit durch die Gesamtanzahl der Ausfälle. Dies ist ein Indikator der Leistungsfähigkeit Ihrer IT-Infrastruktur. Eine höhere Durchschnittszeit zwischen Ausfällen belegt, dass Ihre IT-Infrastruktur gut funktioniert.
Durchschnittliche Erkennungszeit (MTTD) Die Zeit, die durchschnittlich zum Erkennen von Störungen oder Anomalien benötigt wird. Dies bemisst, wie schnell Störungen als solche erkannt werden. Eine kürzere durchschnittliche Erkennungszeit bedeutet, dass Ihr Servicedesk Störungen flott erkennt.
Prozentuale Störungszu- oder -abnahme Der prozentuale Problemzuwachs in Folgemonaten relativ zum ersten Monat. Dies hilft Ihnen beim Identifizieren von Trends beim Auftreten von Störungen.

Störungss-zenario

Störungsszenario

Wir sollten nicht vergessen, dass nicht sämtliche Vorfälle hoher Priorität automatisch zu einer Störung werden. Da nicht selten recht beträchtliche Ressourcen (wie Einrichtung eines eigenen Störungsteams) am Störungsmanagement beteiligt sind, ist es wichtig, Störungen sehr sorgfältig zu klassifizieren.

Quelle: https://blog.cloudflare.com/details-of-the-cloudflare-outage-on-july-2-2019/

Der Cloudflare-Ausfall von 2019 ist nahezu ein Paradebeispiel, wenn Sie sich vergegenwärtigen möchten, was eine echte Störung ausmacht. In diesem Fall führte ein Standardverfahren zur Aktualisierung einer Verwaltungsregel der Webapplikation-Firewall (WAF) dazu, dass die CPU-Auslastung der Server des Cloudflare-Netzwerks auf nahezu 100 % hochschnellte, die Server ihrer eigentlichen Aufgabe nicht mehr nachkommen konnten, nämlich den HTTP/HTTPS-Traffic zu bedienen. Der daraus resultierende Ausfall ließ 80 % des Cloudflare-Traffics zum Erliegen kommen, zog Millionen Internetnutzer rund um die Welt in Mitleidenschaft.

Auswirkung: Groß

Der Ausfall führte dazu, dass Cloudflare-Kunden (und deren Kunden) eine 502-Fehlerseite angezeigt bekamen, wenn sie versuchten, eine beliebige Cloudflare-Domäne aufzurufen. Die 502-Fehler wurden von den Cloudflare-Frontend-Webservern erzeugt, deren CPUs nach wie vor über ausreichende Kapazitäten verfügten, aber nicht mehr an die Server herankamen, die den HTTP/HTTPS-Traffic bedienten. Schätzungen zufolge wurde dadurch 72 Minuten lang etwa die Hälfte des gesamten Internets lahmgelegt.

Dringlichkeit: Hoch

Sämtliche Cloudflare-Websites waren nicht mehr erreichbar, der Ausfall verursachte Serviceunterbrechungen bei tausenden Organisationen und millionen Anwendern. Natürlich wirkte sich der Ausfall auch auf den internen Cloudflare-Betrieb aus, unter anderem, weil Cloudflare-Mitarbeiter nicht mehr auf zahllose Services zugreifen konnten; darunter auch interne Änderungsmanagement- und Kontrollwerkzeuge. Auch hier musste der Ausfall schnell in den Griff bekommen werden, um den regulären Betrieb des Unternehmens fortsetzen zu können.

Zeitlinie der Ereignisse von Erkennung bis Lösung:

Die Verwaltungsregel, damit der Stein des Anstoßes, wurde um 13:42 Uhr implementiert. Drei Minuten später signalisierten die Cloudflare-Netzwerkbetriebswerkzeuge ein Abflauen des Traffics, zahlreiche Endpunkt-zu-Endpunkt-Prüfungen von Cloudflare-Services schlugen fehl, Endanwender bemerkten zahllose 502-Fehler, Cloudflare erhielt massierte Meldungen zu CPU-Überlastungen an Standorten rund um die Welt.

Mehrere Spezialistenteams, darunter Netzwerkzuverlässigkeitsfachleute und spezialisierte Kräfte aus London wurden zusammengeschaltet, um gemeinsam eine Möglichkeit zur Problemlösung auszuarbeiten und diese umzusetzen. Um 14:00 Uhr wurde die Verwaltungsregel als Ursache des Zwischenfalls identifiziert. Gleich um 14:07 Uhr wurde eine globale Regelabschaltung umgesetzt, um den Traffic wieder in normale Bahnen zu leiten.

Um 14:52 Uhr herrschte bei Cloudflare 100 %ige Sicherheit hinsichtlich der Ursachen des Ausfalls, eine wirksame Korrektur wurde umgesetzt, Verwaltungsregeln konnten weltweit wieder aktiviert werden.

Glossar

Glossar

Änderung

Hinzufügen, Verändern oder Entfernen jeglicher Dinge, die sich direkt oder indirekt auf Services auswirken.

Änderungsmanagement:

Planung und Umsetzung von Änderungen mit nur minimalen Unterbrechungen und Kollisionen.

Eskalation:

Übertragen eines Ticketbesitzes gemäß funktionalem oder hierarchischem Bedarf.

Ereignis/Event:

Ein Vorfall mit signifikanten Auswirkungen auf das Management von Services oder Assets.

Ausfall:

Ein Vorfall, in dessen Zuge ein Service oder Asset nicht gemäß ausgehandelter DLV (SLA) funktioniert.

Hierarchische Eskalation:

Vertikale Besitzübertragung an Servicedesk-Techniker oder Dienststelle einer höheren Stufe.

Auswirkung:

Ein Maß für den Schweregrad eines Vorfalls.

Vorfall:

Ungeplante Unterbrechung oder Qualitätsminderung von IT-Services. Ausfälle von Konfigurationselementen (wie Ausfall eines Laufwerks eines gespiegelten Arrays) zählen ebenfalls zu Vorfällen, auch wenn sich diese nicht oder noch nicht auf einen Service auswirken.

Vorfallmanagement:

Ablauf zur Handhabung von Vorfällen mit dem Ziel, Normalbetrieb so schnell wie möglich und mit nur minimalen geschäftlichen Auswirkungen wiederherzustellen.

Vorfallpriorisierung:

Verknüpfung von Prioritäten mit Vorfällen nebst Definition, ob es sich um einen maßgeblichen Vorfall, somit um eine Störung handelt.

Störung:

Vorfall mit hohen Auswirkungen und hoher Dringlichkeit, der einen separaten Vorfallmanagementablauf voraussetzt.

Störungsmanager:

Person, die für Störungsteam und Umsetzung des Störungsmanagementablaufs verantwortlich zeichnet.

Durchschnittliche Bestätigungszeit (MTTA):

Ein Maß der Geschwindigkeit, mit der ein Vorfall durch den Servicedesk bestätigt wird.

Durchschnittliche Erkennungszeit (MTTD):

Ein Maß der Geschwindigkeit, mit der eine potentielle Bedrohung eines Services oder Konfigurationselementes erkannt wird.

Durchschnittszeit zwischen Ausfällen (MTBF):

Ein Maß zur Definition, wie häufig ein Service oder Assets ausfällt.

Durchschnittliche Reparatur-/Lösungs-/Reaktions-/Wiederherstellungszeit (MTTR):

Ein Maß der Geschwindigkeit, mit der ein Service nach einem Ausfall wiederhergestellt wird.

Normalbetrieb:

Servicebetrieb, der den Vereinbarungen der Dienstleistungsvereinbarung (DLV/SLA) entspricht.

Problem:

Ursache oder mögliche Ursache eines oder mehrerer Vorfälle.

ZVKI-Matrix (RACI-Matrix):

Definiert Rollen und Verantwortlichkeiten bei funktions- oder abteilungsübergreifenden Projekten und Prozessen.

Servicedesk:

Mittel zur Kommunikation zwischen Serviceanbietern und Anwendern/Mitarbeitern der Organisation.

Servicedesk-Manager:

Supervisor täglicher Servicedesk-Aktivitäten, verantwortlich für dessen Leistung.

Ziel auf Serviceebene (SLO):

Definiert das Ziel des Serviceanbieters, dient als Mittel zur Messung dessen Leistung.

DLV (SLA):

Eine Vereinbarung zwischen Serviceanbieter und Kunde zur erwarteten Leistungserbringung und zum Zeitraum der Verfügungstellung.

Dringlichkeit:

Ein Maß dafür, wie schnell ein Vorfall behoben werden muss.

Entdecken Sie unterschiedliche Möglichkeiten, mit denen Ihr Unternehmen deutlich von ITSM profitieren kann.

Mittlerweile sollten Sie schon deutlich mehr über Störungen und eine sinnvolle Einrichtung von Störungsmanagementabläufen erfahren haben. Nun kommt es darauf an, den Servicedesk Ihrer Organisation mit soliden Störungsmanagementabläufen auszurüsten, die es sowohl mit gewöhnlichen Vorfällen als auch mit echten Störfällen aufnehmen können. Laden Sie sich Ihr kostenloses Vorfallmanagement-Handbuch und weitere ITSM-Ressourcen herunter.

  • Vorfallmanagement-Handbuch

    Vorfallmanagement-Handbuch

  • Das clevere Buch zum cleveren ITSM

    Das clevere Buch zum cleveren ITSM

  • Handbuch für ITIL-Helden

    Handbuch für ITIL-Helden

 
Mit einem Klick auf „Meine kostenlosen ITSM-Ressourcen“, willigen Sie in die Verarbeitung persönlicher Daten gemäß Datenschutzrichtlinie ein.