Não entre em pânico! 10 maneiras de gerenciar incidentes graves de TI
· 04 mins read
Os incidentes devem ser avaliados de acordo com sua urgência, impacto e gravidade.
Para muitos departamentos de TI, a reação padrão a um incidente grave é passar para o modo de combate a incêndios. Portanto, aqui estão dez etapas que representam as melhores práticas para resolver incidentes graves – sem ocupar as estações de pânico.
Etapa 1: Diferencie entre incidentes de alta prioridade e incidentes graves
Um incidente grave é qualquer problema que tenha um enorme impacto no negócio para vários usuários e force uma organização a se desviar dos processos existentes de gerenciamento de incidentes.
Sem diretrizes claras de ITSM, os incidentes de alta prioridade são frequentemente identificados erroneamente como incidentes graves. Para evitar esta confusão, diferencie os incidentes de alta prioridade e incidentes graves com base em fatores como urgência, impacto e gravidade.
Etapa 2: Tenha fluxos de trabalho de incidentes graves claros e separados
Para restaurar um serviço interrompido rapidamente, implemente um sólido processo com fluxos de trabalho separados para incidentes graves.
Concentre-se na automatização e simplificação de processos, incluindo: Identificação do incidente grave; comunicação com a equipe afetada ou partes interessadas do negócio; alocação das pessoas certas; rastreamento do incidente grave ao longo do seu ciclo de vida; escalação após uma violação de SLAs; resolução e encerramento, além da geração e análise de relatórios.
Para garantir uma resolução mais rápida possível, adote um processo sem necessidade de aprovação para resolver incidentes graves.
Etapa 3: Tenha a melhor equipe para realizar o trabalho
Certifique-se de que seus melhores recursos estejam trabalhando em incidentes graves, com funções e responsabilidades claramente definidas. Algumas organizações têm uma equipe dedicada a incidentes graves, liderada por um gerente de incidentes graves, enquanto outras têm uma equipe dinâmica e ad hoc que conta com especialistas de vários departamentos.
Seu objetivo principal deve ser manter seus recursos engajados e evitar conflitos de tempo e prioridades.
Etapa 4: Treine e muna a equipe com as ferramentas adequadas
Ninguém pode prever quando um incidente grave de TI ocorrerá. Porém, o primeiro passo para enfrentá-lo é estar preparado. Divida sua equipe de gerenciamento de incidentes graves em subequipes e as treine no gerenciamento desse tipo de situação. Atribua responsabilidades mapeando as habilidades com os requisitos.
Execute testes de simulação regularmente para identificar pontos fortes, avaliar o desempenho e abordas as falhas, conforme necessário. Isso também ajudará sua equipe a lidar com o estresse e estar preparada ao enfrentar cenários em tempo real.
Muna a sua equipe com as ferramentas certas, como smartphones e tablets com conectividade transparente, para que possam trabalhar de qualquer lugar durante uma emergência.
Etapa 5: Siga SLAs predefinidas com recursos adicionais em standby
Defina SLAs rigorosos para incidentes graves. Estabeleça SLAs de resposta e resolução separados com pontos de escalação claros para qualquer violação do processo. Siga um processo de escalação manual caso o técnico designado não tiver experiência para resolver o incidente e garanta que um técnico de reserva esteja sempre disponível.
Etapa 6: Mantenha as pessoas relevantes informadas
Ao longo do ciclo de vida de incidentes graves, envie anúncios, notificações e atualizações de status às partes interessadas relevantes. Anúncios no portal de autoatendimento evitarão que os usuários finais gerem tickets duplicados e sobrecarreguem o help desk.
Além disso, envie atualizações de hora em hora ou a cada duas horas durante um tempo de inatividade do serviço provocado por incidentes graves. Tenha uma linha dedicada para responder a incidentes graves imediatamente e oferecer suporte às partes interessadas. Utilize os meios de comunicação mais rápidos, como chamadas telefônicas, visitas diretas, chat online e desktop de controle remoto, em vez de depender do e-mail.
Etapa 7: Revise os principais incidentes para evitar repetições futuras
Após um incidente grave ser resolvido, execute uma análise de causa-raiz usando métodos de gerenciamento de problemas. Em seguida, implemente mudanças em toda a organização para evitar que incidentes similares aconteçam novamente no futuro, seguindo o processo de gestão de mudanças.
Acelere todo o processo de gerenciamento de incidentes, problemas e mudanças, fornecendo informações detalhadas sobre os ativos envolvidos usando o gerenciamento de ativos.
Etapa 8: Adicione inteligência de incidentes graves à sua base de conhecimentos
Formule modelos simples de artigos da base de conhecimentos que capturem detalhes importantes. Estes podem incluir o tipo de incidente grave ao qual o artigo se refere, último problema resolvido com o artigo, proprietário e recursos necessários para implementar a solução. Crie e rastreie soluções separadamente para incidentes graves para que você possa acessá-las rapidamente e com pouco esforço.
Etapa 9: Analise e reporte incidentes graves
Documente e analise todos os incidentes graves para que você possa identificar áreas de melhoria. Isso ajudará sua equipe a enfrentar problemas similares com eficiência no futuro. Além disso, gere relatórios específicos de incidentes graves para análise, avaliação e tomada de decisões.
Isso pode incluir: O número de incidentes graves levantados e encerrados em cada mês; tempo médio de resolução de incidentes graves; porcentagem de tempo de inatividade provocado por incidentes graves e problemas e mudanças relacionados a eles.
Etapa 10: Avalie processos de incidentes graves para uma melhoria contínua do serviço
É uma melhor prática documentar processos e fluxos de trabalho de incidentes graves para referência imediata da TI e outras partes interessadas do negócio. Isto pode incluir detalhes como o número de pessoas envolvidas, suas funções e responsabilidades, canais de comunicação, ferramentas utilizadas para correção, fluxos de trabalho de aprovação e escalação e estratégia global, juntamente com métricas de linha de base para resposta e resolução.
A administração deve avaliar os processos regularmente para verificar se os níveis de desempenho pretendidos no gerenciamento de incidentes graves são atingidos. Isto deve ajudar a corrigir falhas e contribuir para a melhoria contínua do serviço.
Este artigo foi publicado originalmente na Information Age.