Análise da causa raiz: etapas, métodos e processo | ServiceDesk Plus da ManageEngine

Imagine que você esteja trabalhando em TI e esteja enfrentando um incidente. Você pode começar tratando os problemas que vê na superfície. Por exemplo, se o seu site estiver fora do ar, você pode tentar resolver o incidente reiniciando o servidor. No entanto, se você não abordar a causa raiz do incidente, é provável que isso aconteça novamente. Nesse caso, reiniciar o servidor pode ser apenas uma solução provisória, o que pode fazer com que o incidente se repita. Para encontrar uma solução permanente, é importante analisar a causa raiz de um incidente. A análise da causa raiz (RCA) pode ajudar as equipes a fazer isso fazendo perguntas como: "Por que isso aconteceu?", encontrando os problemas intrínsecos e os corrigindo para que o incidente não ocorra novamente.

Neste artigo, veremos como você pode começar a usar a RCA, as etapas envolvidas e os tipos de RCA para ajudá-lo a encontrar a causa principal de qualquer problema.

A análise da causa raiz (RCA) é uma abordagem sistemática que explora profundamente para identificar a causa raiz de um incidente, fazendo repetidamente perguntas do tipo "por que" até que nenhuma resposta diagnóstica adicional possa ser fornecida. Normalmente envolve análise ou discussão logo após a resolução de um incidente.

O principal benefício da RCA é que ela encontra erros fundamentais, possibilitando que as equipes encontrem as medidas certas para corrigir problemas e impedir que eles se repitam. Usando uma variedade de métodos, a RCA pode ajudar a revelar pistas que, de outra forma, poderiam ser negligenciadas durante o processo de resolução de incidentes. Isso pode provocar a identificação da causa exata do incidente, que pode então ser usada para evitar que incidentes similares aconteçam no futuro.

Uma empresa de repositório de código-fonte aberto

A empresa vivenciou uma grande interrupção do serviço online, causada pela remoção acidental de dados do servidor de database primário.

O incidente resultou em horas de indisponibilidade dos serviços do repositório para os usuários, por isso, para evitar ocorrências futuras, a empresa realizou várias melhorias operacionais e de procedimentos de recuperação. Inicialmente, a empresa contava com um único database primário e secundário no modo de espera, com o secundário servindo como um backup de failover, mas essa configuração sobrecarregou muito um único database.

Um engenheiro configurou vários servidores de armazenamento dedicados em um ambiente de testes para equilibrar qualquer carga recebida e, antes de iniciar o trabalho, ele fez uma captura de tela do database de produção e a carregou no ambiente de teste da empresa. Ao tentar restaurar os processos à normalidade, o engenheiro apagou o database PostgreSQL, confundindo-o com um database secundário. No momento em que o erro foi percebido e o database foi revertido para um estado anterior, aproximadamente 300 GB de dados já tinham sido apagados.

Para recuperar o repositório, a equipe de recuperação teve que usar a captura de tela LVM (Logical Volume Manager) de seis horas antes da interrupção. Uma vez que o repositório estava em funcionamento, a equipe passou a usar o método dos cinco porquês para executar a RCA.

O incidente foi dividido em dois problemas principais:

1. Service was down for 18 hours:

As perguntas feitas foram:

Por que o repositório estava fora do ar?
Por que o diretório do database foi removido?
Por que a replicação parou?
Por que a carga do database aumentou?

E assim por diante.

2. A restauração do serviço demorou mais de 18 horas:

As perguntas feitas foram:

Por que a restauração demorou tanto?
Por que o database de teste foi necessário para a restauração?
Por que a equipe não usou o procedimento de backup padrão?
Por que o procedimento de backup não foi testado regularmente?

E muito mais.

A organização conseguiu aprimorar seus diferentes procedimentos de recuperação, incluindo a recuperação de desastres, graças a este estudo aprofundado que a ajudou a identificar as lacunas nesses procedimentos. O incidente também causou o estabelecimento de um dashboard de monitoramento robusto para acelerar os tempos de resolução futuros.

O caso acima realça o papel que a RCA desempenhou nos esforços da empresa para reduzir o tempo de inatividade no futuro e tornar suas operações e serviços mais eficientes. Agora, vamos ver como sua organização pode executar a RCA e quais são as etapas.

Um mapa da RCA variar ligeiramente conforme a organização e o setor, mas aqui estão as cinco etapas mais comuns
para executar a RCA:

1. Defina o problema:

Quando um incidente ocorre, seu primeiro passo é conter ou isolar as áreas afetadas. É aqui que o incidente é resolvido e termina. O problema começa quando é necessário eliminar o incidente para que ele nunca mais ocorra e é necessário um mergulho profundo nos motivos da ocorrência. É aqui que começa o processo da RCA e onde a necessidade de definir o problema é crucial. Definir o problema requer que você conheça o problema que está sendo resolvido, o efeito que ele causou, a hora e a data da ocorrência e assim por diante.

2. Colete dados:

Assim que você tiver encontrado o problema, compile todos os dados e evidências disponíveis relacionados ao incidente específico para começar a entender a causa subjacente. Também é importante levar em consideração a experiência direta e as evidências fornecidas pelos envolvidos no incidente ou em casos similares anteriores.

3. Determine a causa raiz:

É aqui que o processo da RCA começa. Você pode usar uma variedade de técnicas de RCA, e cada técnica ajuda a procurar pequenas pistas que possam revelar a causa raiz.

4. Implemente a solução:

Determinar a causa raiz indicará uma ou mais soluções. Pode ser que você consiga implementar as soluções imediatamente, ou que elas demandem mais trabalho. De qualquer forma, a RCA não estará concluída até que você tenha implementado uma solução ou uma alternativa, dependendo da viabilidade.

5. Documente as ações tomadas:

Depois de você ter identificado e executado as ações corretivas, documente o problema e a resolução geral para que os futuros colaboradores possam usá-lo como material ou referência.

Métodos populares da RCA

O objetivo da RCA é detectar todas as causas inerentes de um problema. Usar um método de análise é uma ferramenta útil para realizar essa tarefa. Cinco métodos populares da RCA são:

O método dos cinco porquês
Diagrama de espinha de peixe
Gráfico de Pareto
Diagrama de dispersão
Método Kepner-Tregoe

1. O método dos cinco porquês

O método dos cinco porquês é uma maneira simples e eficaz de identificar a causa raiz de um problema. Para usá-lo, pergunte "Por que?" cinco vezes seguidas. Nesse processo, se a primeira pergunta não providenciar a causa raiz, pergunte "por que" novamente. Repetir esse processo algumas vezes ajudará você a encontrar a causa subjacente.

Aqui estão as etapas mais detalhadamente:

Defina o problema.
Pergunte por que o problema aconteceu.
Anote a causa.
Se sua primeira pergunta não providenciou a causa raiz, pergunte "Por que?" novamente e anote a causa correspondente.
Repita esse processo até identificar a causa raiz do problema.

O método dos cinco porquês pode ser usado para identificar problemas relacionados ao desempenho. Essa abordagem torna possível realizar um estudo mais aprofundado do problema e identificar as principais causas de mudanças no desempenho da infraestrutura de TI, técnicos, pessoal e outros elementos.

2. Diagrama de espinha de peixe

Um diagrama de espinha de peixe, também chamado de diagrama de Ishikawa ou diagrama de causa e efeito, é uma maneira visual de ilustrar a causa e o efeito. A espinha do esqueleto do peixe no meio do diagrama representa o problema específico, e as costelas do esqueleto que se ramificam a partir da coluna vertebral representam as causas potenciais. No gerenciamento de serviços, existem três aspectos: pessoas, processos e produtos. As ramificações no diagrama são classificadas em causas menores e mais específicas com base em pessoas, processos e produtos, o que propicia uma melhor representação visual para os técnicos da central de serviços. Isso possibilita que as equipes da central de serviços encontrem a causa subjacente, chegando aos fatores mais minuciosos que, de outra forma, passariam despercebidos.

Etapas envolvidas na condução da RCA com um diagrama de espinha de peixe:

Identifique o problema que você está tentando resolver. Colete o máximo de dados disponíveis sobre o problema e sua ocorrência.
Depois de ter identificado o problema, faça um brainstorming das possíveis causas usando um diagrama de espinha de peixe. O diagrama de espinha de peixe ajuda a visualizar e identificar as diferentes categorias de causas.
Após o brainstorm das possíveis causas, categorize as causas sob os fatores que podem influenciar o incidente, como pessoas, processo, ambiente e máquina.
Uma vez que as categorias estejam representadas visualmente, é provável que uma das costelas do diagrama de espinha de peixe concentre várias causas, o que normalmente indicará a causa raiz subjacente do incidente.
Por fim, desenvolva as ações corretivas para abordar a causa raiz e implemente essas ações. Uma vez implementada, monitorar a eficácia da solução evita lacunas na implementação e ajuda a estabelecer uma solução robusta e duradoura.

Usos do diagrama de espinha de peixe:

Melhora a qualidade da prestação de serviços. Identificar os lapsos ajuda a melhorar a qualidade geral da prestação de serviços e a melhorar a satisfação do cliente.
Reduz os custos extras em tempos de turbulência. Com os ventos adversos da economia global se aproximando, o digrama de espinha de peixe ajuda a encontrar a causa raiz de um orçamento inflado, fazer os cortes de custos necessários e mais.

3. Gráfico de Pareto

Os gráficos de Pareto identificam o fator mais significativo dentre um grande conjunto que pode estar causando o problema. Um gráfico de Pareto é um gráfico combinado de barras e linhas, em que os fatores são representados por barras dispostas em ordem decrescente de contagem de ocorrências. Ele é acompanhado por um gráfico de linhas que exibe os totais acumulados de cada fator, da esquerda para a direita, e é um tipo de gráfico de barras que usa o princípio 80-20 para identificar os fatores importantes que estão contribuindo para um problema. Este princípio afirma que 80% dos incidentes são causados por 20% da infraestrutura geral, o que significa que um número pequeno de fatores tem um impacto desproporcional no número de incidentes na organização.

Etapas para executar a RCA usando o gráfico de Pareto:

Assim como vimos no método anterior, identifique o problema e colete os pontos de dados necessários.
Divida os pontos de dados em várias categorias.
Calcule as frequências e encontre a porcentagem cumulativa em ordem decrescente.
Demarque os dados em um gráfico para criar o gráfico de Pareto.
Por fim, implemente procedimentos e processos para evitar a recorrência do problema.

Esse gráfico ajuda a determinar as áreas problemáticas e identificar os aspectos críticos a serem resolvidos primeiro para reduzir a recorrência significativamente.

Usos do gráfico de Pareto:

Identifica os incidentes mais comuns por parte dos usuários e possibilita que os técnicos encontrem correções permanentes e priorizem seus esforços de resolução.
Identifica o número de tickets gerados para incidentes com artigos de conhecimento. possibilita à central de serviços analisar a causa raiz de tais ocorrências e muito mais.

4. Diagrama de dispersão

Os diagramas de dispersão, ou gráficos de dispersão, usam a análise de regressão para demarcar pares graficamente e para determinar relações de dados numéricos com variáveis em dois eixos distintos, como a prioridade de tickets e o número de incidentes ocorridos. Isso é útil para identificar problemas que ocorrem devido a medições flutuantes, como problemas de capacidade que ocorrem quando o tráfego do servidor aumenta.

Usos do diagrama de dispersão:

Esse método pode ser usado para organizar e acompanhar os processos organizacionais. Auxilia na melhoria da qualidade do produto ou do serviço, comparando a precisão do resultado com o resultado aceito.

Diagrama de dispersão para características de qualidade

5. Método Kepner-Tregoe

O método Kepner-Tregoe (KT) é uma abordagem para resolução de problemas que identifica a causa subjacente de um problema e consiste em analisar os diferentes fatores que contribuem para o problema e eliminar os que são irrelevantes, isolando assim os elementos-chave que precisam ser abordados. O método KT pode ser usado para solucionar problemas de incidentes de TI, tomar decisões de TI, gerenciar riscos de TI e planejar projetos, ponderando os prós e os contras para tomar decisões embasadas.

O método KT é uma abordagem sistemática de quatro etapas para resolver problemas complexos. As etapas são:

Análise situacional: envolve a coleta de informações sobre o problema, incluindo sua definição, impacto e sintomas.
Análise de problemas: consiste em identificar a causa subjacente do problema. Isso é feito utilizando uma matriz de causa e efeito para identificar causas potenciais e, seguido de um brainstorming em cada categoria.
Análise de decisão: consiste em ponderar os prós e os contras de diferentes soluções para o incidente e selecionar a melhor.
Análise de problemas potenciais: envolve identificar problemas potenciais com a solução e desenvolver planos alternativos para abordá-los.

A figura abaixo mostra as quatro etapas envolvidas no método KT para executar a RCA. Cada etapa é essencial para assegurar o sucesso da RCA e da resolução.

Biografia do autor

Saket Pasumarthy, especialista em produtos do ServiceDesk Plus da ManageEngine, é um entusiasta de ITSM e fascinado em compreender os avanços mais recentes no espaço de TI. Saket escreve artigos e blogs que ajudam equipes de gerenciamento de serviços de TI em todo o mundo a lidar com desafios do gerenciamento de serviços. Além disso, ele apresenta sessões educativas aos usuários na série masterclass sobre o ServiceDesk Plus. Saket passa seu tempo livre jogando futebol e pilotando aviões em um simulador de voo.

Um guia para iniciantes sobre a análise da causa raiz

O que é análise da
causa raiz??

Importância da RCA

Enfatizando o impacto da RCA: um cenário da vida real demonstrando benefícios organizacionais