Última atualização em: 15 de maio de 2025
Uma onda de pânico atingiu a equipe de TI da Zylker em uma segunda-feira movimentada. Os tickets de incidente inundaram a caixa de entrada do suporte, e os telefones tocaram incessantemente. O sistema de gerenciamento de pedidos da empresa, a base de seus negócios, havia caído. As contas dos clientes ficaram bloqueadas e as vendas pararam. O sistema de gerenciamento de pedidos é vital para as operações da Zylker, e uma falha prolongada poderia prejudicar a confiança dos usuários e resultar em perda de receita. Felizmente, a Zylker já possuía um plano de resposta a incidentes bem estruturado para grandes falhas. Assim que resolvido, a equipe de TI decidiu realizar uma análise pós-incidente para entender o que deu errado e identificar as etapas que poderiam ser adotadas para tornar sua infraestrutura de TI mais resiliente.
Mas antes de começarmos, o que é uma análise pós-incidente?
Uma análise pós-incidente é uma revisão minuciosa de um incidente de TI que documenta a linha do tempo dos eventos, o impacto do incidente, as etapas tomadas para resolvê-lo e as ações para impedir que ele se repita. Em vez de ser um exercício de atribuição de culpa, é um esforço colaborativo para identificar falhas e otimizar futuras respostas a incidentes. O processo envolve membros de diferentes departamentos e documenta cuidadosamente a linha do tempo do incidente para identificar problemas potenciais. A análise pós-incidente também inclui a revisão crítica da estratégia de resposta ao incidente, avaliando se foi eficaz ou se há espaço para melhorias.
Recomenda-se realizar a análise pós-incidente logo após a resolução do problema, para capturar o máximo de informações atuais e relevantes dos responsáveis pela resposta e de outras partes interessadas. De preferência, a análise deve começar no máximo uma semana após o ocorrido.
Então, veja como a Zylker realizou a análise pós-incidente. A equipe de TI da Zylker iniciou o processo de análise pós-incidente, designando John Clarke como responsável pela documentação. John fez parte da equipe de resposta ao incidente e possuía conhecimento direto sobre a falha ocorrida. A seguir, está o documento de análise pós-incidente preparado por ele.
Título
Incidente SEV-1: Falha no sistema de gerenciamento de pedidos em 1º de agosto de 2024 [INC-14819]
Data de início e término do incidente
- Início: 1º de agosto de 2024, às 8h57 GMT
- Término: 1º de agosto de 2024, às 9h05 GMT
Resumo
Uma atualização no database foi realizada em 1º de agosto de 2024, às 8h50, nos servidores legados do sistema de gerenciamento de pedidos. Isso causou um problema de compatibilidade inesperado com os servidores da aplicação, tornando-a indisponível para todos os usuários finais.
Sequência de eventos
| Data e hora | Evento |
|---|---|
1º de agosto | 8h50 GMT | Os servidores databases primários que rodam o Microsoft SQL Server 2014 foram atualizados para o Microsoft SQL Server 2017. |
1º de agosto | 9h00 GMT | Usuários relatam falhas de login, o que impede que os clientes realizem pedidos. |
1º de agosto | 9h04 GMT | A equipe de resposta a incidentes identifica a desconexão entre o servidor do database e os servidores da aplicação. |
1º de agosto | 9h05 GMT | O servidor da aplicação é reconectado ao servidor do database secundário, como parte do plano de recuperação de desastres. |
1º de agosto | 9h47 GMT | A atualização do database é revertida e o servidor de banco de dados primário é reconectado ao servidor da aplicação. |
Impacto
Colaboradores e fornecedores terceirizados não conseguiram acessar o sistema de gerenciamento de pedidos durante cinco minutos. Os clientes ficaram impossibilitados de realizar pedidos entre 9h00 e 9h05 GMT do dia 1º de agosto de 2024. Esse incidente de indisponibilidade resultou em 6.713 pedidos não realizados, causando perdas de US$756.000.
Fatores que contribuíram para a falha
- Análise de configuração incompleta devido à CMDB desatualizada
- Mapeamento de dependências inadequado
- Ausência de testes abrangentes de mudanças
- Descumprimento do período de congelamento de mudanças
- Falhas de comunicação entre a equipe de transformação digital e a equipe de manutenção do OMS.
Resolução
Os servidores da aplicação do sistema de gerenciamento de pedidos foram reconectados aos databases secundários, e a atualização dos dados foi revertida nos servidores primários.
Lições aprendidas
- Uma CMDB atualizada, com documentação abrangente e mapeamento de dependências, poderia ter evitado essa falha.
- Nesse caso específico, os administradores de databases devem ser incluídos nas reuniões do comitê consultivo de mudanças (CAB). No futuro, os proprietários de CI e administradores de serviços revisarão as solicitações de mudanças como parte do CAB.
- As recomendações sobre os testes de mudanças e a janela de congelamento foram ignoradas. Essas precisam ser aplicadas, e a criação de solicitações de mudança deve ser restrita, exceto para mudanças emergenciais.
Medidas corretivas e/ou preventivas
- Uma reformulação completa da CMDB foi iniciada, incluindo a migração para o ServiceDesk Plus.
- Os proprietários de CI e os responsáveis pelos serviços de negócios foram designados como aprovadores do CAB.
- Durante a temporada de pico de compras, a janela de congelamento de mudanças será aplicada.
- Um projeto de atualização de infraestrutura em toda a organização foi iniciado e será concluído de forma faseada.
Equipe de resposta a incidentes
- William Smith - Líder
- John Clarke
- Jessica Chan
- Kumar Gupta
Quer utilizar o modelo de análise pós-incidente da Zylker? Obtenha sua cópia complementar aqui!
Uma das etapas mais importantes na análise pós-incidente é a análise de causa raiz (RCA).
A RCA é um método sistemático para identificar as causas subjacentes de um incidente. A equipe coleta e analisa todas as informações disponíveis, como logs de eventos, configurações de servidores e outros dados relevantes, para identificar a causa raiz. Esse processo permite que a organização aprenda com o incidente e tome medidas para evitar a ocorrência de problemas semelhantes no futuro.
Métodos de análise de causa raiz usados pela Zylker:
Método dos cinco porquês
O método dos cinco porquês é uma técnica de análise de incidentes que consiste em fazer repetidamente a pergunta "por quê?" até que a causa raiz seja identificada, o que ocorre geralmente após cinco iterações.
No caso da Zylker, veja como a equipe de TI identificou a causa raiz:
- Por que os clientes não conseguiram realizar pedidos? Porque o sistema de gerenciamento de pedidos estava indisponível.
- Por que o sistema de gerenciamento de pedidos estava indisponível? Porque o servidor de database estava desconectado dos servidores da aplicação.
- Por que ocorreu a desconexão? Porque a versão atualizada do Microsoft SQL Server era incompatível com a base de código da aplicação.
- Por que o database foi atualizado sem análise adequada? Porque a CMDB não foi atualizada para refletir as últimas relações de dependência, o que fez com que a análise realizada não refletisse o ambiente real.
- Por que a CMDB não foi atualizada com as últimas relações de dependência? Porque falhas de comunicação dentro da equipe levaram à descontinuação do procedimento operacional padrão para mapeamento de dependências.
Diagrama de causa e efeito
Também conhecida como diagrama de Ishikawa, esta ferramenta visual identifica fatores potenciais, categorizados por causas raiz como pessoas, processos, tecnologia e ambiente.
A equipe de resposta a incidentes criou um diagrama de causa e efeito com o problema central sendo a "Falha no sistema de gerenciamento de pedidos". Cada uma das ramificações representaria uma categoria de causa raiz potencial:
| Categoria | Causas potenciais |
|---|---|
Pessoas | Falhas de comunicação entre a equipe de transformação digital e a equipe de manutenção do OMS. |
Processos | Descumprimento do período de congelamento de mudanças. |
Tecnologia | Análise de configuração incompleta devido à CMDB desatualizada. |
Ambiente | Mapeamento de dependências inadequado. |
Método Kepner-Tregoe (KT)
É um método estruturado de resolução de problemas que utiliza uma série de perguntas para definir o problema, analisar causas potenciais e desenvolver ações corretivas.
Veja como o modelo KT foi aplicado para identificar a causa raiz:
- Definir o problema: O sistema de gerenciamento de pedidos sofreu uma falha, resultando em uma perda significativa de receita.
- Analisar causas potenciais: Com base nas informações coletadas na análise pós-incidente e nas conclusões após a análise do diagrama de causa e efeito, a equipe identificou causas potenciais, como falhas de comunicação e análise incompleta da configuração.
- Desenvolver e testar soluções: A equipe avaliou e priorizou soluções para cada causa potencial. Isso pode envolver a implementação de uma CMDB em tempo real, com mapeamento granular de dependências, atualização das políticas do CAB, revisão dos workflows de gerenciamento de mudanças e a implementação de janelas de congelamento de mudanças.
Ao empregar esses três métodos de RCA, a Zylker conseguiu identificar a causa raiz da falha. Lembre-se de que a RCA é uma etapa muito importante na análise pós-incidente e orienta os esforços de gerenciamento de problemas que serão adotados em casos de incidentes repetidos ou falhas graves.
Nas organizações que não realizam uma análise pós-incidente abrangente, as equipes de TI perdem a valiosa oportunidade de revisar suas ações durante a resposta ao incidente e identificar insights que podem fazer toda a diferença em suas estratégias de gerenciamento de incidentes e problemas. No entanto, nas equipes que realizam análises pós-incidente, o exercício pode facilmente se transformar em um jogo de culpa, com acusações sobre as falhas. Para que uma análise pós-incidente e uma RCA sejam realmente valiosas, as equipes de TI precisam conduzir ambos os processos de forma objetiva, sem atribuição de culpa, e usar a experiência do incidente como aprendizado para fortalecer a resiliência dos seus serviços de TI.
















