MTTR kontra MTTF kontra MTBF: Skillnader med exempel

Mätvärden är kärnan i hantering av IT-tjänster genom att ge insikter om verksamheten och hjälpa till att identifiera områden som kräver ständiga förbättringar. De vanliga måtten för servicedesk hjälper till att visa den interna operativa effektiviteten. Till exempel SLA som mäter antalet ärenden som lösts inom den angivna tiden är en nyckelfaktor som visar servicedeskens effektivitet. Å andra sidan hjälper felmätningar teamen att identifiera svaga punkter i IT-infrastrukturen och utvärdera svaren på felhändelser. Detta hjälper IT-teamen att minimera den kaskadeffekt som fel kan orsaka på kritiska system.

Vilka är de viktigaste felmåtten som ska följas upp? I den här artikeln kommer vi att titta närmare på följande tre KPI:er:

Medeltid mellan fel
Medeltid till fel
Medeltid till återställning

MTBF (genomsnittlig tid mellan fel)

När det ofta uppstår fel på IT-infrastrukturtillgångar, vare sig det gäller nätverk, servrar, arbetsstationer, osv., får det en kaskadeffekt på tillgången till IT- och affärstjänster. Dessa störningar leder till förlorade intäkter och försämrat anseende. Om en viss IT-tillgång ofta drabbas av driftstopp krävs ofta reparation eller utbyte. Innan dess är det bra att undersöka och förstå varför tillgången ofta går ner och under vilka omständigheter. Detta underlättar planeringen av underhåll och förbättrar systemens tillgänglighet. MTBF är det mått som hjälper till att identifiera orsaker till driftstopp och att minska dem eller planera för snabb återhämtning och bättre tillgänglighet för IT-system.

Bild 1. Medeltid mellan fel

Om MTBF för en viss IT-tillgång är låg innebär det att tillgången ofta drabbas av driftstopp, vilket leder till IT- och affärsstörningar.

Exempel på MTBF

I en organisation misslyckades nya uppdateringar av lagringsenheten hela tiden när nya firmware-uppdateringar för Windows tillämpades. Detta inträffade några gånger och MTBF blev sämre. Efter att ha analyserat problemet fastställde teamet att tredjepartsdrivrutinen orsakade att det API som krävdes för att utföra uppdateringen antingen inte implementerades eller var felaktigt. När en ny uppdatering planeras, och om drivrutiner från tredje part inte implementerar nödvändiga API:er, finns det två möjliga lösningar att utforska. Genom att byta ut API:erna mot Windows-alternativen för lagringsprotokollen SATA och NVMe, eller skaffa en ny version av drivrutinen med bättre stöd från OEM-tillverkaren, kan man implementera uppdateringar, åtgärda buggar och täppa till säkerhetsluckor. Övervakning och spårning av drivrutinsuppgraderingar och driftstopp bidrar till att förbättra lagringsenheternas tillgänglighet.

Så förbättrar man MTBF

Implementera en process för att observera tillgångars hälsa för att spåra och övervaka fel. Detta hjälper till att identifiera orsaken till störningar.
Analysera grundorsaken till problemet för att skapa medvetenhet, ta itu med långsiktiga orsaker och förbättra tillgångarnas prestanda.
Skapa en strategi för snabba insatser för att effektivt hantera och minska driftstopp som påverkar verksamheten. Målet är att få färre och längre tid mellan störningarna.

Medeltid till fel (MTTF)

Tillgångar som fallerar regelbundet kan störa organisationens IT-verksamhet och leda till att IT-infrastrukturen försämras och underpresterar. MTTF-måttet hjälper till att fastställa den typiska livslängden för en tillgång, enhet eller komponent. För IT-tillgångar och komponenter med låg MTTF är det ofta mer tidseffektivt, och minimerar operativa effekter och kostnader, att ersätta IT-komponenten istället för att reparera komponenten.

Detta gäller särskilt IT-komponenter som är kopplade till viktiga operativa delar av infrastrukturen, t.ex. en stordatorserver eller en nätverksåtkomstpunkt.

Bild 2. Medeltid till fel

Om MTTF för en tillgång är ofördelaktig och går sönder regelbundet tyder det på att IT-tillgången är otillförlitlig och behöver bytas ut ofta för att inte påverka IT-driften.

Exempel på MTTF

När en kabel anslöts eller kopplades bort från switchen i data- och nätverksserverstacken på ett IT-programvaruutvecklingsföretag kunde nätverkskablarna lossna, kopplas bort eller skadas. Detta ledde till att filer skadades på grund av avbruten dataöverföring. Ytterligare analys av nätverksteamet visade att plasthöljet utan hakar fortsatte att gå sönder på CAT6 RJ45-patchkabeln. Detta berodde på att kabeln köptes från en tillverkare som använde billigt material. IT-teamet ersatte sedan de gamla kablarna med kablar av bättre kvalitet för att se till att det inte skulle uppstå några problem, som förlust eller förvanskning av data, i framtiden när kablar flyttas. Detta är ett typiskt exempel, men genom att regelbundet följa upp kabelns MTTF (medeltid till fel) kan IT-teamen förstå betydelsen av kritiska tillgångar, som komponenter, så att de kan fatta välgrundade beslut om reparation och utbyte.

Så ökar man MTTF

Öka tillgångarnas livslängd genom att anskaffa tillgångar av hög kvalitet och avveckla tillgångar av låg kvalitet och kostnad.
Förhindra storskaliga störningar i affärsverksamheten genom att planera in regelbundna kontroller av komponenter som är kopplade till kritiska tillgångar.
Implementera en läglig inventeringsprocess som förutsäger en tillgångs operativa livslängd, vilket resulterar i minskade overheadkostnader i samband med lagring av tillgångar.

Medeltid till reparation (MTTR)

När ett kritiskt IT-system fallerar måste IT-teamen få igång systemet så snart som möjligt. Förseningar i återställandet av IT-system kan leda till förlorade intäkter och påverka kritisk affärsverksamhet. Ett välorganiserat system för återställning och respons kan hjälpa IT-teamen att hantera oplanerade driftstopp och återställa driften på ett effektivt sätt. MTTR mäter den genomsnittliga tid det tar att reparera eller felsöka en tillgång och återställa den till dess operativa kapacitet.

Bild 3. Medeltid till återställning

Kostnaden för ett driftstopp ökar i takt med att MTTR ökar. En hög MTTR tyder på att återställnings- och responsåtgärderna inte är snabba och effektiva. Systemfel är oundvikliga, men MTTR gör det möjligt för teamen att reagera på tillgångsfel i rätt tid och på ett strategiskt sätt.

Exempel på MTTR

Ett programvaruföretag utsattes för en nolldagsattack mot ett videospel som de höll på att utveckla på grund av en sårbarhet i en kod. Attacken störde funktioner som Wi-Fi och övervakningssystem. Detta ledde till att angriparna fick tillgång till organisationens nätverksdomän och konfidentiella affärsfiler. Cybersäkerhetsteamet informerade medarbetarna om nolldagsattacker och var de kunde rapportera dem. Varje IT-tillgång i organisationen var utrustad med nästa generations virusskydd (NGAV). Attacken slog ut LAN och självbetjäningsportalen för medarbetare, vilket lamslog organisationens verksamhet. Inom en timme efter attacken fick cybersäkerhetsteamet information och hjälp av NGAV:s förmåga, som utnyttjar hotanalys och användarnas beteendemönster, och identifierade den misstänkta aktiviteten. Cybersäkerhetsteamet körde omedelbart ett patchhanteringsskript för att åtgärda sårbarheten i koden, och låste ner det lokala nätverket för att undvika ytterligare påverkan på verksamheten och datastöld.

Så minskar man MTTR

En effektiv strategi för förvaltning av tillgångar bidrar till bättre beslutsfattande genom att identifiera flaskhalsar och peka ut vilka tillgångar som ska repareras eller ersättas. Det sparar pengar och lagringsutrymme.
Definiera ansvarsområden och roller för tekniker för att effektivisera processen för att upptäcka och lösa incidenter.
Förse teknikerna med detaljerade standardrutiner för att minska missförstånd och förvirring vid driftstopp.
Mät MTTR med hjälp av en Enterprise Asset Management-lösning som centraliserar information om underhåll och övervakning av tillgångar. Detta bidrar också till att optimera utnyttjandet av tillgångar, samla in tillgångsdata och förutsäga eventuella driftstopp.

Sammanfattning

Dessa felmätningar hjälper teamen att identifiera flaskhalsar i verksamheten och deras förmåga att reagera på incidenter. De gör det möjligt för IT-team att uppnå högre driftseffektivitet genom att hitta grundorsaken till ihållande incidenter. IT-teamen kan förbättra sin strategi för incidenthantering med en tydlig bild av de områden där IT-verksamheten påverkas. Dessa mätvärden kan implementeras i organisationer genom att använda dem som KPI:er snarare än bara prestationsmål. Mätvärdena belyser områden där processer kan förenklas och verksamheten förbättras, och fungerar som riktlinjer för förbättringar snarare än som mål att uppnå.

En snabb sammanfattning av varje mätvärde:

MTBF ger bättre insikter i hur effektiv servicedesken är på att förebygga framtida störningar.
MTTF hjälper dig att förstå en tillgångs livscykel och dess tillförlitlighet.
MTTR anger hur lång tid som går åt till reparationer och hur snabbt IT-teamen kan diagnostisera störningar.

Om författaren

Saket Pasumarthy, produktexpert på ManageEngine ServiceDesk Plus, är en ITSM-entusiast och fascineras av att förstå de senaste framstegen inom IT-området. Saket skriver artiklar och bloggar som hjälper IT-service management-team globalt att hantera utmaningar inom service management. Dessutom presenterar han användarutbildningar i ServiceDesk Plus Masterclass-serien. Saket tillbringar sin fritid med att spela fotboll och flyga flygplan i en flygsimulator.

Vanliga frågor

Utvärdera snabbt era rutiner för hantering av IT-incidenter med vår verktygslåda

En självskattande utvärdering för att mäta dina grundläggande rutiner för incidenthantering, från identifiering av incident till avslut
En checklista för att granska teamets beredskap att hantera större incidenter i hybridarbetsmiljön
En snabbreferensguide som hjälper till att övervinna de vanliga utmaningarna med incidenthantering i hybridmodellen

MTBF kontra MTTF kontra MTTR