Metriken sind das Herzstück des IT-Service-Managements, geben Einblicke in die Abläufe und helfen, Bereiche für kontinuierliche Verbesserungen zu ermitteln. Standardisierte Servicedesk-Kennzahlen helfen dabei, die interne betriebliche Effizienz darzustellen. Eine SLA, welche die Anzahl der in der vorgegebenen Zeit gelösten Tickets misst, ist zum Beispiel ein Schlüsselfaktor, der die Effizienz des Servicedesks darstellt. Andererseits helfen Fehlermetriken den Teams, Schwachstellen in der IT-Infrastruktur zu erkennen und Reaktionen auf Fehlerereignisse zu bewerten. Auf diese Weise können IT-Teams Kaskadeneffekte minimieren, die Ausfälle bei kritischen Systemen verursachen können.

Was sind die wichtigsten zu verfolgenden Fehlermetriken? In diesem Artikel werden wir die folgenden drei KPIs betrachten:

  • Mean time between failures (MTBF)
  • Mean time to failure (MTTF)
  • Mean time to repair (MTTR)
 

Mean time between failure (MTBF)

Mean time between failure (MTBF)

Häufige Ausfälle von IT-Infrastrukturen, seien es Netzwerke, Server, Workstations usw., haben kaskadenartige Auswirkungen auf die Verfügbarkeit von IT- und Unternehmensdiensten. Diese Unterbrechungen führen zu Umsatz- und Reputationsverlusten. Wenn ein bestimmtes IT-Asset häufig ausfällt, ist oft eine Reparatur oder ein Austausch erforderlich. Zuvor ist es hilfreich, zu untersuchen und zu verstehen, warum das Asset häufig und unter welchen Umständen ausfällt. Dies hilft bei der Planung der Asset-Wartung und der Verbesserung der Systemverfügbarkeit. MTBF ist die Kennzahl, die hilft, die Ursachen für Ausfallzeiten zu ermitteln und diese abzuschwächen oder eine schnelle Wiederherstellung und bessere Verfügbarkeit von IT-Systemen zu planen.

MTBF-Kennzahlen

Abbildung 1. Mean time between failures (MTBF)

Wenn die MTBF eines bestimmten IT-Assets niedrig ist, bedeutet dies, dass das Asset häufig ausfällt, was zu IT- und Geschäftsunterbrechungen führt.

MTBF-Beispiel

In einem Unternehmen schlugen neue Updates für das Speicherlaufwerk immer dann fehl, wenn neue Windows-Firmware-Updates implementiert wurden. Dies geschah einige Male und der MTBF-Wert wurde immer schlechter. Nach der Analyse des Problems stellte das Team fest, dass der Treiber eines Drittanbieters dazu führte, dass die für die Aktualisierung erforderliche API entweder nicht implementiert wurde oder fehlerhaft war. Wenn eine neue Aktualisierung geplant ist und die Treiber von Drittanbietern die erforderlichen APIs nicht implementieren, gibt es zwei mögliche Lösungen, die zu prüfen sind. Der Austausch der APIs mit den Windows-Alternativen für SATA- und NVMe-Speicherprotokolle oder der Bezug einer neuen und besser unterstützten Version des Treibers vom OEM kann helfen, Updates zu implementieren, Fehler zu beheben und Sicherheitslücken zu schließen. Die Überwachung und Verfolgung von Treiber-Upgrades und Ausfallzeiten trägt zur Verbesserung der Verfügbarkeit der Speicherlaufwerke bei.

Wie man die MTBF verbessert?

  • Implementierung eines Prozesses zur Beobachtung des Asset-Zustands, um Ausfälle zu verfolgen und zu überwachen. Dies hilft, die Ursache von Störungen zu ermitteln.
  • Analyse der Grundursache des Problems, um das Bewusstsein zu schärfen, langfristige Ursachen anzugehen und die Asset-Leistung zu verbessern.
  • Eine schnelle Reaktionsstrategie aufsetzen, um Ausfallzeiten, die den Betrieb beeinträchtigen, wirksam zu bekämpfen und zu reduzieren. Ziel ist es, weniger bzw. mehr Zeit zwischen Störungen zu gewinnen.
 

Mean time to failure (MTTF)

Mean time to failure (MTTF)

Ein regelmäßiger Ausfall von Assets kann den IT-Betrieb stören und zu einer Verschlechterung der IT-Infrastruktur bzw. zu Leistungseinbußen führen. Die MTTF-Kennzahl hilft bei der Bestimmung der typischen Lebensdauer eines Assets, eines Geräts oder einer Komponente. Bei IT-Assets und -Komponenten mit einer niedrigen MTTF ist es oft zeitsparender und minimiert die betrieblichen Auswirkungen und Kosten, wenn die IT-Komponente ersetzt wird, anstatt sie zu reparieren.

Dies gilt insbesondere für IT-Komponenten, die mit wichtigen Betriebselementen der Infrastruktur verbunden sind, wie z. B. ein Mainframe-Server-Stack oder ein Netzzugangspunkt.

Mean time to failure (MTTF)

Abbildung 2. Mean time to failure

Wenn die MTTF eines Assets ungünstig ist und das Asset regelmäßig ausfällt, deutet dies darauf hin, dass dieses Asset unzuverlässig ist und häufig ersetzt werden muss, um Auswirkungen auf den IT-Betrieb zu vermeiden.

MTTF-Beispiel

Ein IT-Software-Entwickler hat bei einem Switch im Daten- und Netzwerkserver-Stack ein Kabel verwendet, das locker sitzt oder beim Ein- und Ausstecken beschädigt wird. Dies führte dazu, dass Dateien aufgrund der unterbrochenen Datenübertragung beschädigt wurden. Weitere Untersuchungen des Netzwerkteams ergaben, dass die Kunststoffabdeckung des CAT6-RJ45-Patchkabels immer wieder abbrach. Dies war darauf zurückzuführen, dass das Kabel von einem Hersteller bezogen wurde, der billiges Material verwendete. Das IT-Team ersetzte daraufhin die alten Kabel durch qualitativ hochwertigere, um sicherzustellen, dass bei der Verlegung von Kabeln in Zukunft keine Probleme wie Datenverlust oder -beschädigung auftreten. Dies ist ein klassisches Beispiel, aber die regelmäßige Verfolgung der MTTF des Kabels hilft IT-Teams, die Auswirkungen kritischer Anlagen, wie z. B. Komponenten, zu verstehen, so dass sie fundierte Entscheidungen über Reparatur und Ersatz treffen können.

Wie man die MTTF erhöht

  1. Die Asset-Lebensdauer kann durch die Beschaffung von höherwertigen Assets und Stilllegung von kostengünstigen Assets geringer Qualität verlängert werden.
  2. Weitreichende Unterbrechungen des Geschäftsbetriebs können durch regelmäßige Überprüfung von Komponenten, die mit kritischen Anlagen verbunden sind, vermieden werden.
  3. Die Implementierung eines Just-in-Time-Inventarisierungsprozesses, bei dem die Betriebszeit einer Anlage geschätzt wird, führt zu einer Senkung der Gemeinkosten für das Storage von Assets.

Mean time to
repair (MTTR)

Mean time to repair  (MTTR)

Wenn ein kritisches IT-System ausfällt, müssen die IT-Teams das System so schnell wie möglich wieder zum Laufen bringen. Verzögerungen bei der Wiederherstellung von IT-Systemen können zu Umsatzeinbußen führen und wichtige Geschäftsabläufe beeinträchtigen. Ein gut organisiertes Wiederherstellungs- und Reaktionssystem kann IT-Teams helfen, auf ungeplante Ausfallzeiten schnell zu reagieren und den Betrieb effektiv wiederherzustellen. MTTR misst die durchschnittliche Zeit, die benötigt wird, um eine Anlage zu reparieren oder eine Störung zu beheben und sie wieder betriebsbereit zu machen.

MTTR-Formel

Abbildung 3. Mean time to repair

Die Kosten einer Ausfallzeit steigen mit zunehmender MTTR. Eine hohe MTTR deutet darauf hin, dass Ihre Wiederherstellungs- und Reaktionsmaßnahmen nicht schnell und effektiv sind. Systemausfälle sind unvermeidlich, aber mit MTTR kann rechtzeitig und strategisch auf Anlagenausfälle reagiert werden.

MTTR-Beispiel

Ein Softwareunternehmen sah sich aufgrund einer Sicherheitslücke in einem Code mit einem Zero-Day-Angriff auf ein von ihm entwickeltes Videospiel konfrontiert. Durch den Angriff wurden Funktionen wie Wi-Fi und Überwachungssysteme gestört. Dies führte dazu, dass die Angreifer auf die Netzwerkdomäne des Unternehmens und vertrauliche Geschäftsdateien zugreifen konnten. Das Cybersicherheitsteam informierte die Mitarbeiter über diese Zero-Day-Angriffe und darüber, wo sie Auffälligkeiten melden können. Alle IT-Ressourcen des Unternehmens waren mit Antivirenprogrammen der nächsten Generation (NGAV) ausgestattet. Der Angriff legte das LAN und das Self-Service-Portal für Mitarbeiter und den gesamten Betrieb der Organisation lahm. Das Cybersicherheitsteam wurde innerhalb einer Stunde über den Angriff informiert und konnte mit Hilfe des installierten NGAV, das Bedrohungsanalysen und Verhaltensmuster von Benutzern feststellen kann, die verdächtigen Aktivitäten identifizieren. Das Cybersicherheitsteam führte sofort ein Patchmanagement-Skript aus, um die Schwachstelle im Code zu beheben, und sperrte das lokale Netzwerk, um weitere Auswirkungen auf den Betrieb und Datendiebstahl zu vermeiden.

Wie man die MTTR reduziert?

  1. Eine effiziente Assetmanagement-Strategie trägt zu einer besseren Entscheidungsfindung bei, da sie Engpässe identifiziert und im voraus festlegt, wann Assets repariert oder ersetzt werden müssen. Das spart Geld und Speicherkapazität.
  2. Definition der Zuständigkeiten und Rollen von Technikern, um den Prozess der Störungserkennung und -behebung zu optimieren.
  3. Detaillierte und standardisierte Arbeitsanweisungen für die Techniker, um Missverständnisse und Verwirrung während einer Ausfallzeit zu vermeiden.
  4. Messung der MTTR mit einer Enterprise Asset Management-Lösung, die Informationen zur Wartung und Überwachung von Anlagen zentral erfasst. Dies hilft auch, die Auslastung der Anlagen zu optimieren, Assetdaten zu sammeln und mögliche Ausfallzeiten vorherzusagen.
 

Fazit

MTBF and MTTR

Diese Fehlermetriken helfen, Engpässe in den Betriebsabläufen zu erkennen und ihre Reaktionsfähigkeit auf Incidents zu erhöhen. IT-Teams können für eine höhere betriebliche Effizienz sorgen, indem sie die Ursache für anhaltende Störungen ermitteln. Ebenso kann die Strategie zur Reaktion auf Vorfälle verbessert werden, wenn die Teams ein klares Bild von den Betriebsbereichen haben, die beeinträchtigt werden können. Diese Metriken können als KPIs genutzt und nicht nur als Leistungsziele verwendet werden. Über dieses Kennzahlen können Betriebsprozesse, die vereinfacht und verbessert werden können, ermittelt werden; sie stellen nicht nur die Ziele dar, die es zu erreichen gilt.

Kurze Zusammenfassung der einzelnen Metriken:

  • MTBF bietet einen besseren Einblick in die Effektivität des Servicedesks, um künftige Störungen zu vermeiden.
  • MTTF hilft, den Lebenszyklus eines Assets und seine Verlässlichkeit zu verstehen.
  • MTTR gibt an, wie viel Zeit für die Reparatur aufgewendet wird und wie schnell IT-Teams in der Lage sind, Störungen zu diagnostizieren.
Saket

Über den Autor

Saket Pasumarthy ist Produktexperte bei ManageEngine ServiceDesk Plus und ITSM-Enthusiast; sein Hauptaugenmerk gilt den neuesten Entwicklungen im IT-Bereich. Saket schreibt Artikel und Blogs, die den Teams im Bereich IT-Service-Management auf der ganzen Welt bei der Bewältigung von Herausforderungen helfen. Außerdem hält er Anwenderschulungen im Rahmen der ServiceDesk Plus Masterclass-Reihe. In seiner Freizeit spielt Saket Fußball und fliegt Flugzeuge in einem Flugsimulator.

 

 

 

 

Häufig gestellte Fragen

Mit unserem Toolkit können bestehende Praktiken zum IT-Incident-Management schnell bewertet werden

  • Von der Identifizierung bis zur Schließung eines Incidents können hiermit die wichtigsten Verfahren eingeschätzt werden
  • Eine Checkliste bewertet die Fähigkeit eines Teams, größere Incidents in einer hybriden Arbeitsumgebung zu bewältigen
  • Ein Spickzettel hilft, die häufigsten Herausforderungen beim Störungsmanagement im hybriden Arbeitsmodell zu meistern
 

Planen Sie, in diesem Jahr Ihr ITSM-Tool zu ersetzen? *

Wenn Sie auf „Download the toolkit“ (Toolkit herunterladen) klicken, erklären Sie sich mit der Verarbeitung personenbezogener Daten gemäß der Datenschutzvorschriften einverstanden.