MTTR versus MTTF versus MTBF: verschillen met voorbeelden

Statistieken vormen het hart van IT-servicebeheer; zij bieden inzichten in de bedrijfsactiviteiten en helpen bij het identificeren van gebieden voor continue verbetering. De gebruikelijke servicedeskstatistieken helpen om de interne operationele efficiëntie aan te tonen. SLA, dat meet hoeveel tickets in de opgegeven periode worden opgelost, is bijvoorbeeld een belangrijke factor die de efficiëntie van de servicedesk laat zien. De storingsstatistieken daarentegen laten teams de zwakke plekken in de IT-infrastructuur zien en helpen bij het evalueren van reacties op storingsgebeurtenissen. Dit is nuttig voor IT-teams om het trapsgewijze effect van storingen op kritieke systemen te minimaliseren.

Wat zijn de belangrijkste storingsstatistieken die moeten worden gevolgd? In dit artikel zien we de volgende drie KPI's:

Gemiddelde tijd tussen storingen
Gemiddelde tijd tot storing
Gemiddelde tijd tot reparatie

Gemiddelde tijd tussen storingen (MTBF)

Wanneer er regelmatig storingen optreden in de IT-infrastructuur, of het nu gaat om netwerken, servers of werkstations, hebben zij een trapsgewijs effect op de beschikbaarheid van IT- en bedrijfsdiensten. Deze onderbrekingen leiden tot verlies van inkomsten en reputatieschade. Wanneer een bepaalde IT-asset regelmatig uitvalt, is een reparatie of vervanging vaak onvermijdelijk. Voordat dit gebeurt, is het nuttig om na te gaan waarom en onder welke omstandigheden de asset uitvalt. Deze informatie komt van pas bij het plannen van onderhoud en het verbeteren van de beschikbaarheid van systemen. MTBF helpt bij het identificeren van oorzaken van uitval en helpt dit te beperken of plannen voor snel herstel en betere beschikbaarheid van IT-systemen.

Afbeelding 1: Gemiddelde tijd tussen storingen

Als de MTBF van een bepaalde asset laag is, betekent dit dat de asset regelmatig uitvalt, wat leidt tot onderbreking van IT- en bedrijfsactiviteiten.

Voorbeeld van MTBF

In een organisatie mislukten steeds de nieuwe updates van de opslagdrive wanneer er nieuwe updates van Windows firmware plaatsvonden. Dit gebeurde een paar keer en de MTBF verslechterde. Na analyse van het probleem stelde het team vast dat het stuurprogramma van derden ervoor zorgde dat de API die nodig was om de update uit te voeren niet werd geïmplementeerd of defect was. Wanneer er een nieuwe update is gepland en stuurprogramma's van derden de benodigde API's niet implementeren, kunnen er twee mogelijke oplossingen worden onderzocht. Het verwisselen van de API's met de Windows-alternatieven voor SATA- en NVMe-opslagprotocollen of het verkrijgen van een nieuwe en beter ondersteunde versie van het stuurprogramma van de OEM kan helpen bij het implementeren van updates, het oplossen van bugs en het dichten van veiligheidsleemtes. Het monitoren en traceren van driverupgrades en uitval helpt bij het verbeteren van de beschikbaarheid van de opslagdrives.

MTBF verbeteren

Implementeer een proces om de gezondheid van assets in de gaten te houden voor het traceren en monitoren van uitval. Dit is nuttig om de oorzaak van onderbrekingen te identificeren.
Analyseer de hoofdoorzaak van het probleem om bewustzijn te creëren, langetermijnoorzaken aan te pakken en de prestaties van assets te verbeteren.
Creëer een strategie voor een snelle respons om uitval die de bedrijfsvoering beïnvloedt, effectief aan te pakken en te verminderen. De bedoeling is minder onderbrekingen en meer tijd tussen onderbrekingen.

Gemiddelde tijd tot storing (MTTF)

Assets die regelmatig uitvallen kunnen de IT-activiteiten van uw organisatie verstoren en ertoe leiden dat de IT-infrastructuur verslechtert en minder goed presteert. MTTF speelt een rol bij het vaststellen wat de typische levensduur van een asset, apparaat of onderdeel is. Voor IT-assets en componenten met een lage MTTF, kost het vaak minder tijd en minimaliseert het operationele impact en kosten om het IT-onderdeel te vervangen in plaats van het te repareren.

Dit geldt vooral voor IT-onderdelen die zijn gekoppeld aan cruciale operationele elementen van de infrastructuur, zoals een mainframeserverstack of een netwerktoegangspunt.

Afbeelding 2: Gemiddelde tijd tot reparatie

Als de MTTF van een asset ongunstig is en regelmatig mislukt, geeft dit aan dat de IT-asset onbetrouwbaar en aan vervanging toe is om een negatieve impact op IT-activiteiten te voorkomen.

Voorbeeld van MTTF

Wanneer bij een softwareontwikkelaar een kabel werd aangesloten op of losgekoppeld van de switch op de data- en netwerkserverstack, raakten de netwerkkabels los. Hierdoor werd de verbinding verbroken of ontstond er schade. Door de onderbreking in de gegevensoverdracht raakten bestanden corrupt. Verdere analyse door het netwerkteam wees uit dat de snagless hoes bleef breken op de CAT6 RJ45-patchkabel.

Dit kwam omdat de kabel was gekocht bij een fabrikant die goedkoop materiaal gebruikte. Het IT-team verving vervolgens de oude kabels door kabels van betere kwaliteit om er zeker van te zijn dat er in de toekomst bij het verplaatsen van kabels geen problemen zouden optreden, zoals het gegevensverlies of corrupte bestanden. Dit is een klassiek voorbeeld, maar het regelmatig traceren van de MTTF van de kabel geeft IT-teams inzicht in de impact van kritieke assets, bijvoorbeeld onderdelen. Zo kunnen zij beter een weloverwogen beslissing nemen over reparatie en vervanging.

MTTF verhogen

Verleng de levensduur van een asset door kwalitatief hoogwaardige assets aan te schaffen en goedkope, kwalitatief laagwaardige assets buiten bedrijf te stellen.
Voorkom grootschalige onderbrekingen van assets door regelmatige controles te plannen van onderdelen die zijn gekoppeld aan kritieke assets.
Implementeer een just-in-time inventarisatieproces dat een schatting maakt van de tijd dat een asset operationeel is. Dit zorgt ervoor dat de overheadkosten voor de opslag van assets lager zijn.

∇

Gemiddelde tijd tot
reparatie (MTTR)

Wanneer een kritiek IT-systeem uitvalt, moeten IT-teams het systeem zo snel mogelijk weer aan de praat krijgen. Vertragingen in het herstellen van IT-systemen kunnen leiden tot inkomstenverlies en een impact hebben op kritieke bedrijfsactiviteiten. Met een goed georganiseerd herstel- en reactiesysteem kunnen IT-teams reageren op ongeplande downtime en de activiteiten effectief hervatten. MTTR meet de gemiddelde tijd die nodig is om een probleem met een asset te verhelpen en of de asset te repareren en de asset weer operationeel te maken.

Afbeelding 3: Gemiddelde tijd tot reparatie

Als de MTTR toeneemt, nemen ook de kosten van uitval toe. Een hoge MTTR-waarde geeft aan dat uw herstel- en responsoperaties niet snel en effectief zijn.

Systeemstoringen zijn onvermijdelijk, maar MTTR stelt teams in staat om tijdig en strategisch te reageren op storingen.

Voorbeeld van MTTR

Een softwarebedrijf werd geconfronteerd met een zero-day aanval op een videogame die in ontwikkeling was. De oorzaak was een kwetsbaarheid in een code. Door de aanval raakten bijvoorbeeld de wifi en bewakingssystemen verstoord. Hierdoor konden de aanvallers zich toegang verschaffen tot het netwerkdomein en vertrouwelijke bestanden van de organisatie. Het cyberbeveiligingsteam informeerde werknemers over zero-day-aanvallen en waar ze deze konden melden. Elke IT-asset in de organisatie werd uitgerust met NGAV (antivirussoftware van de volgende generatie). In de aanval werden het LAN en het selfserviceportaal voor werknemers uitgeschakeld, waardoor de activiteiten van de organisatie worden lamgelegd. Binnen een uur na de aanval werd het cyberbeveiligingsteam op de hoogte gebracht en geholpen door de mogelijkheden van NGAV, dat analyses van bedreigingen en gedragspatronen van gebruikers gebruikt en de verdachte activiteit kon identificeren. Het cyberbeveiligingsteam voerde onmiddellijk een patchmanagementscript uit om de kwetsbaarheid in de code te verhelpen en vergrendelde het lokale netwerk om te voorkomen dat de bedrijfsvoering verder zou worden verstoord en gegevens zouden worden gestolen.

MTTR beperken

Een efficiënte strategie voor assetbeheer identificeert knelpunten en geeft aan dat assets moeten worden rerepareerd en helpt zo om beter beslissingen te nemen. Dit bespaart geld en opslagruimte.
Definieer de verantwoordelijkheden en rollen voor technici om het detectie- en oplossingsproces voor incidenten te stroomlijnen.
Voorzie technici van gedetailleerde standaardwerkprocedures om miscommunicatie en verwarring tijdens een storing te verminderen.
Meet MTTR met een Enterprise Asset Management-oplossing die informatie over onderhoud en monitoring van assets centraliseert. Dit komt ook van pas bij het optimalseren van assets, het verzamelen van assetgegevens en het voorspellen van mogelijke downtime.

Conclusie

Deze stroringsstatistieken helpen teams bij het identificeren van de knelpunten in operaties en hun responsiviteit op incidenten. Zij stellen IT-teams in staat een hogere operationele efficiëntie te bereiken door nauwkeurig aan te geven wat de hoofdoorzaak is van hardnekkige problemen. IT-teams kunnen hun strategie voor het reageren op incidenten verbeteren met een duidelijk beeld van de gebieden waar de IT-activiteiten worden beïnvloed. Deze statistieken kunnen worden geïmplementeerd in organsiatues door ze te gebruiken als KPI's in plaats van alleen prestatiedoelen. De statistieken zijn niet slechts doelen die moeten worden bereikt, maar geven aan op welke gebieden processen kunnen worden vereenvoudigd en operationele verbeteringen kunnen worden doorgevoerd.

Beknopte samenvatting van elke statistiek:

MTBF verschaft beter inzicht in de effectiviteit van uw servicedesk om toekomstige onderbrekingen te voorkomen.
MTTF helpt u de levenscyclus van asset en de betrouwbaarheid ervan te begrijpen.
MTTR geeft aan hoeveel tijd er is besteed aan reparatie en hoe snel uw IT-teams een diagnose kunnen maken van onderbrekingen.

Over de auteur

Saket Pasumarthy, productexpert bij ManageEngine ServiceDesk Plus, is een ITSM-enthousiast en gefascineerd door de nieuwste ontwikkelingen in de IT-wereld. Saket schrijft artikelen en blogs die IT-servicemanagementteams wereldwijd helpen om te gaan met uitdagingen op het gebied van servicebeheer. Ook presenteert hij trainingssessies voor gebruikers ngen in de Masterclass-serie over ServiceDesk Plus. In zijn vrije tijd mag Saket graag een potje voetballen en vliegtuigen besturen in een vluchtsimulator.

Veelgestelde vragen

Maak met onze toolkit een snelle beoordeling van hoe u IT-incidenten beheert.

Een zelfscorende beoordeling om uw kernpraktijken voor incidentbeheer te meten, van incidentidentificatie tot afsluiting
Een checklist om te beoordelen of uw team er klaar voor is om voor de hybride werkomgeving grote incidenten aan te pakken
Een cheatsheet om de veelvoorkomende uitdagingen op het gebied van incidentbeheer in het hybride werkmodel te overwinnen

Ontdek de kracht van 360° ITSM

Aanmelden(Cloud) Downloaden(op locatie)

MTBF versus MTTF versus MTTR