Senast uppdaterad den: den 26 juli 2024
Tänk dig att du arbetar inom IT och att du står inför en problem. Du kan börja med att hantera de problem som du ser på ytan. T.ex, om din webbplats är nere kan du försöka lösa problemet genom att starta om servern. Men om du inte tar itu med grundorsaken till händelsen kommer den sannolikt att upprepa sig. I det här fallet kan en omstart av servern endast vara en tillfällig lösning, och det finns risk att händelsen upprepas. För att hitta en permanent lösning är det viktigt att analysera grundorsaken händelsen. Rotorsaksanalys (RCA) kan hjälpa team att göra detta genom att ställa frågor som "Varför hände detta?", hitta de underliggande problemen och åtgärda dem så att incidenten inte upprepar sig.
I den här guiden går vi igenom hur du kommer igång med RCA, de olika stegen och vilka typer av RCA som du kan använda dig av för att hitta rotorsaken till olika problem.
Root cause analysis (RCA) is a systematic approach that drills deep to identify the root cause of an incident by repeatedly asking "why" questions until no additional diagnostic responses can be provided. It typically involves analysis or a discussion soon after an incident has been resolved.
Den främsta fördelen med RCA är identifiera grundläggande fel, vilket hjälper team att hitta rätt åtgärder att åtgärda problem och förhindra att de upprepar sig. Med hjälp av en mängd olika arbetsmetoder kan RCA hjälpa till att avslöja ledtrådar som i annat fall skulle förbises underhändelsens åtgärds-process. Detta kan leda till att den exakta orsaken till incidenten identifieras och förhindra att liknande incidenter upprepar sig.
Ett företag med öppen källkodslagring
Ett stort avbrott inträffade i företagets onlinetjänst pga. oavsiktlig borttagning av data från den primära databasservern.
Incidenten ledde till flera timmars avbrott i tillgänglighet av lagringstjänster för användarna. För att förhindra att detta upprepar sig har företaget gjort flera förbättringar av drift- och återställningsrutiner. Till en början förlitade sig företaget på en enda primär och sekundär databas i standby-läge, med den sekundära som en säkerhetsbackup. Men den här konfigurationen utgjorde en överbelastning av enskilda databaser.
En tekniker installerade flera, speciella lagringsservrar för information i en iscensättningsmiljö, för att balansera den inkommande belastningen. Innan arbetet påbörjades tog teknikern en ögonblicksbild av produktionsdatabasen och läste in den i företagets iscensättningsmiljö. Medan teknikern försökte återställa processer till normalläget, raderade hen ut PostgreSQL-databasen i tron att det var en sekundär databas. När misstaget upptäcktes och databasen återställts till ett tidigare tillstånd hade ca 300 GB data redan raderats.
För att återställa lagerutrymmet måste återställningsteamet använda ögonblicksbilden från LVM (Logical Volume Manager) från sex timmar före avbrottet. När lagret väl var igång igen fortsatte teamet att använda ´5 varför´-metoden för RCA.
Händelsen delades ytterligare upp i två huvuddelar:
1. Tjänsten var nere under 18 timmar:
Följande frågor ställdes:
- Varför stängdes lagret ner?
- Varför raderades databaskatalogen?
- Varför avbröts replikeringen?
- Varför ökade databasbelastningen?
Och så vidare.
2. Tjänsten tog över 18 timmar att återställas:
Följande frågor ställdes:
- Varför tog återställningen så lång tid?
- Varför krävdes datauppdelning för återställning?
- Varför använde inte teamet standardproceduren för backup?
- Varför testades inte backup-proceduren regelbundet?
Och mer därtill.
Företaget kunde förbättra sina olika återställningsrutiner, inklusive katastrofåterställning, tack vare denna detaljerade studie som hjälpte till att identifiera luckorna i dessa rutiner. Incidenten ledde dessutom till upprättandet av en vattentät övervakningsinstrumentbräda för att påskynda framtida upplösningstider.
Ovanstående fall belyser den roll RCA spelade i företagets ansträngningar att minska stilleståndstiden i framtiden och effektivisera dess verksamhet och tjänster. Nu ska vi titta på hur ditt företag kan utföra RCA och vilka stegen är.
En RCA-karta kan se något annorlunda ut i olika företag och branscher, men detta är de fem vanligaste
stegen för RCA:
1. Identifiera problemet:
När en händelse inträffar är det första steget att begränsa eller isolera påverkade områden. Det är här som problemet åtgärdas och elimineras. Problemet börjar när incidenten måste förhindras från att någonsin upprepas och en djupdykning i händelsens grundorsakerna krävs. Det är här som RCA-processen tar sin början och där nödvändigheten att identifiera problemet är avgörande. Att identifiera problemet kräver att du känner väl till problemet ifråga, de effekter det har orsakat, tid och datum för händelsen, osv.
2. Hämta in data:
När du har identifierat problemet, ska du samla in alla tillgängliga data och bevis relaterade till den specifika incidenten för att börja förstå den grundläggande orsaken. Det är också viktigt att ta hänsyn till förstahandserfarenheter och bevis från personer som är inblandade i incidenten eller varit inblandade i tidigare liknande incidenter.
3. Identifiera grundorsaken:
Det är här som RCA-processen börjar. Du kan använda flera olika RCA-metoder, där varje metod hjälper dig att identifiera små ledtrådar som kan avslöja grundorsaken.
4. Implementera lösningen:
Att fastställa grundorsaken kommer att leda till en eller flera lösningar. De kanske kan implementeras direkt eller kräver det lite extra arbete. I alla fall görs inte RCA förrän du har implementerat en lösning beroende på genomförbarheten.
5. Dokumentera vidtagna åtgärder:
När du har identifierat problemet och utfört korrigerande åtgärder ska du dokumentera problemet och den övergripande lösningen för anställda använda som en resurs eller referens.

Populära RCA-metoder
Målet med RCA är att identifiera grundorsakerna till olika problem. Att använda en analysmetod brukar fungera bra för detta. Fem populära RCA-metoder:
- 5 varför-metoden
- Fiskbensdiagram
- Pareto-diagram
- Scatterdiagram
- Kepner-Tregoe-metoden
1. 5 varför-metoden
5 varför-metoden är ett enkelt och effektivt sätt att identifiera rotorsaken till ett problem. Ställ frågan "Varför?" fem gånger. Om den första frågan inte hittar grundorsaken, upprepa frågan "varför". Efter några gånger kommer du att hitta den grundläggande orsaken.
Här är stegen i mer detalj:
- Identifiera problemet.
- Fråga varför problemet uppstod.
- Anteckna orsaken.
- Om din första fråga inte identifierade grundorsaken, fråga "Varför?" igen och anteckna svaret.
- Fortsätt tills du har identifierat grundorsaken till problemet.
Metoden med 5 varför kan användas för att lokalisera prestationsrelaterade problem. Denna metod möjliggör en mer grundlig studie av problemet och hjälper till att identifiera huvudorsakerna till förändringar i prestanda för IT-infrastrukturen, tekniker, personal och andra element.

2. Fiskbensdiagram
Ett fiskbensdiagram, även kallat ett Ishikawa-diagram eller ett orsak-och-verkan-diagram, är ett visuellt sätt att beskriva orsak och verkan. Fiskskelettets ryggrad i mitten av diagrammet representerar det specifika problemet, och skelettets revben som förgrenar sig från ryggraden representerar potentiella orsaker. Inom service management finns det tre aspekter: människor, process och produkt. Grenarna i diagrammet delas upp i mindre, mer specifika orsaker baserat på människor, process och produkt, vilket ger en bättre visuell överblick för servicedesktekniker. Det hjälper servicedesk-teamen att hitta grundorsaken genom att identifiera faktorer som annars skulle gå förbi obemärkta.
Steg som ingår i att utföra RCA med ett fiskbensdiagram:
- Identifiera de problem du försöker lösa. Samla in så mycket information som möjligt om problemet och händelsen.
- När du har identifierat problemet, brainstorma de potentiella orsakerna med hjälp av ett fiskbensdiagram. Fiskbensdiagrammet hjälper till att visualisera och identifiera de olika orsakskategorierna.
- Kategorisera sedan orsakerna under de faktorer som kan påverka händelsen, såsom människor, process, miljö och maskin.
- När kategorierna väl har visualiserats kommer ett av revbenen i fiskbensdiagrammet att ha flera orsaker, vilket alltid kommer att vara grundorsaken till incidenten.
- Föreslå slutligen korrigerande åtgärder för grundorsaken och implementera dem. Efter implenteringen av de korrigerande åtgärderna hjälper övervakning av lösningens effektivitet till att täppa till luckor och att skapa en vattentät lösning på lång sikt.
Fördelar med fiskbensdiagram:
- Förbättrar tjänsteleveransen. Identifierar luckor som hjälper till att förbättra den övergripande leveranskvaliteten och förbättra kundnöjdheten.
- Minskar kostnadsöverskridanden i oroliga tider. Med en hotande motvind i den globala ekonomin hjälper fiskbensdiagrammet att hitta grundorsaken till en uppblåst budget, göra nödvändiga kostnadsminskningar m.m.

3. Pareto-diagram
Pareto-diagram identifierar den viktigaste faktorn bland många möjliga orsaker. Ett Pareto-diagram är ett kombinerat stapel- och linjediagram, där faktorerna visas som staplar i fallande ordning enligt antalet förekomster. Diagrammet åtföljs av ett linjediagram som visar de kumulativa summorna för varje faktor, från vänster till höger. Pareto-diagrammet är en typ av stapeldiagram som använder 80-20-principen för att identifiera viktiga bidragande faktorer till ett problem. 80-20-principen innebär att 80 % av incidenterna orsakas av 20 % av den totala infrastrukturen. Det innebär att ett litet antal faktorer har en oproportionerlig inverkan på antalet incidenter.
Steg för att utföra RCA med hjälp av Pareto-diagrammet:
- Precis som i den förra metoden, identifierar vi problemet och samlar in nödvändig data.
- Dela upp datan i olika kategorier.
- Beräkna frekvenser och identifiera den kumulativa procentandelen i fallande ordning.
- Placera datan på en graf för att skapa Pareto-diagrammet.
- Implementera till sista rutiner och processer för att förhindra att problemet upprepas.
Det här diagrammet hjälper till att fastställa problemområden och identifiera de kritiska aspekter som ska åtgärdas först för att avsevärt minska risken för återfall.
Användning av Paretodiagram:
- Identifierar de vanligaste användarincidenterna, låter tekniker hitta permanenta lösningar och prioritera dessa.
- Identifierar antalet ärenden för incidenter med färdiga kunskapsartiklar. Detta gör det möjligt för service desk att analysera rotorsaken för liknande händelser m.m.

4. Scatterdiagram
Punktdiagram, eller spridningsdiagram, använder regressionsanalys för att bestämma sambandet mellan numeriska data och variabler på två olika axlar, såsom prioritet för ärenden och antalet incidenter. Detta används för att identifiera problem som uppstår på grund av fluktuerande mätningar, till exempel kapacitetsproblem som uppstår när servertrafiken ökar.
Fördelar med punktdiagram:
Hjälper till att organisera och hålla reda på organisatoriska processer. Höjer kvaliteten på produkten eller tjänsten genom att jämföra noggrannheten i utdata med den accepterade utdatan.
Punktdiagram för kvalitetsegenskaper

5. Kepner-Tregoe-metoden
Kepner-Tregoe (KT)-metoden är en problemhanteringsmetod för att identifiera grundorsaken till ett problem. Det handlar om att analysera de olika faktorer som bidrar till problemet, eliminera de som är irrelevanta, och därigenom isolera de element som behöver åtgärdas. KT-metoden kan användas för att felsöka IT-incidenter, fatta IT-beslut, hantera IT-risker och planera projekt genom att väga in för- och nackdelar.
KT-metoden är ett 4-stegs, systematisk metod för att lösa komplexa problem. De 4 stegen:
- Situationsanalys: Detta innebär att samla in information om problemet, samt fastställa problemets definition,
inverkan och symtom. - Problemanalys: Detta innebär att identifiera den underliggande orsaken till problemet. Detta görs genom att använda en orsak-och-verkan-matris för att identifiera potentiella orsaker, och sedan brainstorma inom varje kategori.
- Beslutsanalys: Det handlar om att väga för- och nackdelar med olika lösningar
och välja den bästa. - Analys av potentiella problem: Detta innebär att identifiera potentiella problem och utveckla alternativa åtgärdsplaner.
Bilden nedan visar de fyra stegen i KT-metoden för RCA. Varje steg är viktigt för att RCA ska lyckas.







