Última actualización: 15 de mayo de 2025
Una ola de pánico se apoderó del equipo de TI de Zylker en una ajetreada mañana de lunes. Los tickets de incidentes inundaron su bandeja de entrada de asistencia técnica y los teléfonos no paraban de sonar. El sistema de gestión de pedidos de la empresa, pilar fundamental de su negocio, había dejado de funcionar. Los clientes no pudieron acceder a sus cuentas y las ventas se paralizaron. El sistema de gestión de pedidos es el alma de las operaciones de Zylker, y una interrupción prolongada podría dañar la confianza de los usuarios y provocar pérdidas de ingresos. Afortunadamente, Zylker contaba con un plan de respuesta ante incidentes mayores que funcionó a la perfección. Una vez resuelta la interrupción, el equipo de TI decidió realizar un análisis posterior del incidente para determinar qué había fallado e identificar las medidas que se podían tomar para hacer más resistente su infraestructura de TI.
Pero antes de entrar en materia, ¿qué es un análisis post mortem de un incidente?
Un análisis posterior a un incidente es una revisión exhaustiva de un incidente de TI que documenta la cronología de los acontecimientos y el impacto del incidente, así como las medidas adoptadas para resolverlo y evitar que se repita. En lugar de ser un ejercicio para culpar a alguien, se trata de un esfuerzo colaborativo para identificar errores y optimizar las respuestas ante incidentes futuros. El proceso involucra a personal de diferentes departamentos y documenta cuidadosamente la cronología del incidente para identificar posibles problemas. El proceso post mortem también incluye revisar críticamente la estrategia de respuesta al incidente y aprender si fue efectiva o si hay margen de mejora.
Se recomienda realizar un análisis posterior poco después de resolver un incidente, para poder recopilar toda la información y los conocimientos más recientes y relevantes de los responsables de la respuesta ante incidentes y otras partes interesadas. Lo ideal es que el análisis post mortem comience a más tardar una semana después del incidente.
Así es como Zylker llevó a cabo el análisis posterior al incidente. El equipo de TI de Zylker comenzó designando a John Clarke como responsable del análisis posterior al incidente. John formaba parte del equipo de respuesta a incidentes y tenía conocimiento de primera mano sobre la interrupción del servicio. Prepara el siguiente informe post mortem para Zylker.
Título
Incidente SEV-1: Interrupción del sistema de gestión de pedidos el 1 de agosto de 2024 [INC-14819]
Fecha de inicio y finalización del incidente
- Inicio: 1 de agosto de 2024 a las 8:57 a. m. GMT
- Fin: 1 de agosto de 2024 a las 9:05 a. m. GMT
Resumen
El 1 de agosto de 2024, a las 8:50 a. m., se actualizó la base de datos en los servidores heredados del sistema de gestión de pedidos. Esto provocó un problema de compatibilidad imprevisto con los servidores de aplicaciones e impidió que la aplicación estuviera disponible para todos los usuarios finales.
Secuencia de eventos
| Fecha y hora | Evento |
|---|---|
1 ago. | 8:50am GMT | Los servidores de bases de datos principales que ejecutan Microsoft SQL Server 2014 se actualizan a Microsoft SQL Server 2017. |
1 ago. | 9:00am GMT | Los usuarios informan de errores al iniciar sesión, lo que significa que los clientes no pueden realizar pedidos. |
1 ago. | 9:04am GMT | El equipo de respuesta a incidentes identifica la desconexión entre el servidor de la base de datos y los servidores de aplicaciones. |
1 ago. | 9:05am GMT | El servidor de aplicaciones está conectado al servidor de base de datos secundario como parte del plan de recuperación ante desastres. |
1 ago. | 9:47am GMT | Se revierte la actualización de la base de datos y se vuelve a conectar el servidor de base de datos principal al servidor de aplicaciones. |
Impacto
Los empleados y los proveedores externos no pudieron acceder al sistema de gestión de pedidos durante cinco minutos. Los clientes no pudieron realizar pedidos entre las 9:00 a. m. GMT y las 9:05 a. m. GMT del 1 de agosto de 2024. Este incidente de in disponibilidad provocó 6713 pedidos fallidos, lo que supuso unas pérdidas de 756.000 dólares.
Factores que contribuyeron a la interrupción
- Análisis de configuración incompleto debido a una CMDB obsoleta
- Asignación de dependencias inadecuada
- Ausencia de pruebas exhaustivas de los cambios
- Incumplimiento del periodo de congelación de cambios
- Fallos de comunicación entre el equipo de transformación digital y el equipo de mantenimiento del OMS.
Resolución
Los servidores de aplicaciones del sistema de gestión de pedidos se volvieron a conectar a las bases de datos secundarias y se revirtió la actualización de la base de datos en los servidores de bases de datos principales.
Lecciones aprendidas
- Una CMDB actualizada con documentación completa y asignación de dependencias podría haber evitado esta interrupción.
- Los administradores de bases de datos (en este caso) deben participar en la reunión del comité asesor de cambios (CAB). En el futuro, los propietarios de CI y los administradores de servicios revisarán las solicitudes de cambio como parte del CAB.
- No se tuvieron en cuenta las recomendaciones sobre las pruebas de cambios y el periodo de congelación. Deben aplicarse y la creación de solicitudes de cambio debe restringirse, salvo en casos de emergencia.
Medidas correctivas y/o preventivas
- Se ha iniciado una renovación integral de la CMDB, incluida la migración a ServiceDesk Plus.
- Propietarios de CI designados y propietarios de servicios empresariales designados como aprobadores del CAB.
- Durante la temporada alta de compras, se aplicará el periodo de congelación de cambios.
- Se ha iniciado un proyecto de actualización de la infraestructura de toda la organización, que se completará por fases.
Equipo de respuesta ante incidentes
- William Smith - Director
- John Clarke
- Jessica Chan
- Kumar Gupta
¿Quiere utilizar la plantilla de análisis post mortem de incidentes de Zylker? Obtenga su copia gratuita aquí!
Uno de los pasos más importantes en el análisis posterior al incidente es el análisis de causas raíz (RCA).
Un RCA es un método sistemático para encontrar las razones subyacentes de un incidente. El equipo recopila y analiza toda la información disponible, como logs de eventos, configuraciones del servidor, etc., y determina la causa raíz. Esto ayuda a la organización a aprender del incidente y garantizar que no se produzcan incidentes similares en el futuro.
Estos son algunos de los métodos que Zylker utilizó en su RCA:
Método de las cinco preguntas
El método de las cinco preguntas es una técnica para analizar un incidente repitiendo la pregunta "¿por qué?" hasta identificar la causa raíz, normalmente en unos cinco porqués.
En el caso de Zylker, veamos cómo su equipo de TI identificó la causa raíz:
- ¿Por qué no pudieron realizar pedidos los clientes? Porque el sistema de gestión de pedidos no estaba disponible.
- ¿Por qué no estaba disponible el sistema de gestión de pedidos? Porque el servidor de la base de datos se desconectó de los servidores de aplicaciones.
- ¿Por qué se produjo la desconexión? Porque la versión actualizada de Microsoft SQL Server era incompatible con el código base de la aplicación.
- ¿Por qué se actualizó la base de datos sin un análisis adecuado? Porque la CMDB no se actualizó para reflejar las últimas relaciones de dependencia, por lo que el análisis realizado no reflejaba el entorno en tiempo real.
- ¿Por qué no se actualizó la CMDB con las últimas relaciones de dependencia? Debido a que las fallas en la comunicación dentro del equipo hacen que ya no se siga el procedimiento operativo estándar para la asignación de dependencias.
Diagrama de espinas de pescado
A veces conocido como diagrama de Ishikawa o diagrama de causa y efecto, esta herramienta visual identifica los posibles factores contribuyentes clasificados por causas raíz, como personas, procesos, tecnología y entorno.
El equipo de respuesta a incidentes crearía un diagrama de espinas de pescado con el problema central como "Interrupción del sistema de gestión de pedidos". Cada una de las ramas representarían una categoría de causa raíz potencial:
| Categoría | Causas potenciales |
|---|---|
Personas | Fallos de comunicación entre el equipo de transformación digital y el equipo de mantenimiento del OMS. |
Proceso | Incumplimiento del periodo de congelación de cambios. |
Tecnología | Análisis de configuración incompleto debido a una CMDB obsoleta. |
Entorno | Asignación de dependencias inadecuada. |
Método Kepner-Tregoe (KT)
Este enfoque estructurado para la resolución de problemas utiliza una serie de preguntas para definir el problema, analizar las posibles causas y desarrollar medidas correctivas.
A continuación, se explica cómo se aplicó el modelo KT para encontrar la causa raíz:
- Definir el problema: El sistema de gestión de pedidos sufrió una interrupción, lo que provocó una pérdida significativa de ingresos.
- Analizar las causas potenciales: basándose en la información recopilada en el análisis posterior y en la lluvia de ideas del diagrama de espinas de pescado, el equipo identifica las causas potenciales, como fallos de comunicación y análisis de configuración incompleto.
- Desarrollar y probar soluciones: A continuación, el equipo evalúa y prioriza las soluciones para cada causa potencial. Esto podría suponer la implementación de una CMDB en tiempo real con asignación detallada de dependencias, políticas de CAB actualizadas, flujos de trabajo de gestión de cambios revisados y la instauración de períodos de congelación de cambios.
Mediante el empleo de estos tres métodos de RCA, Zylker identificó la causa raíz de la interrupción del servicio. Recuerde que un RCA es un paso crucial en el análisis postmortem al incidente y orienta los esfuerzos de gestión de problemas que se llevarán a cabo en caso de incidentes repetidos o interrupciones mayores.
En las organizaciones que no participan activamente en el ejercicio de postmortem exhaustivo de incidentes, sus equipos de TI pierden la valiosa oportunidad de volver sobre sus pasos durante la respuesta a incidentes e identificar información que podría hacer o deshacer su estrategia de gestión de incidentes y problemas. Sin embargo, entre los equipos que realizan evaluaciones postmortem a los incidentes, el ejercicio puede convertirse rápidamente en un juego de acusaciones. Para que la evaluación postmortem de un incidente y la RCA sean realmente valiosas, los equipos de TI deben realizar ambos ejercicios de forma objetiva, sin dirigir la culpa hacia nadie, y aprovechar la experiencia del incidente como un conocimiento que puede ayudar a infundir resiliencia a sus servicios de TI.






