Gerenciamento da continuidade de serviços de TI: 4 etapas para criar planos de ITSCM

Última atualização em: 27 de junho de 2025

Em 10 de março de 2021, às 0h47, labaredas iluminaram o céu de Estrasburgo, na França.

Um incêndio atingiu o data center SBG2 da OVHcloud, um dos maiores provedores de cloud da Europa. Em poucas horas, o fogo reduziu toda a instalação a cinzas. Empresas de diferentes setores em toda a Europa viram seus sites, aplicações e operações simplesmente saírem do ar. E-mails pararam de funcionar. Sistemas bancários ficaram indisponíveis, portais governamentais saíram do ar e databases inteiros foram perdidos.

Algumas empresas entraram em pânico ao receber a notícia. Não possuíam backups. Não contavam com mecanismos de failover. Não tinham qualquer plano de contingência.

Outras conseguiram reagir. Seus sistemas foram redirecionados, os backups entraram em ação e, antes mesmo de o incêndio ser totalmente controlado, já estavam novamente online, com impacto mínimo ou imperceptível.

A diferença não foi a sorte. Foi a continuidade de serviços de TI.

As empresas que conseguiram resistir ao incidente já haviam se preparado para esse cenário em salas de planejamento, simulações de resposta e recuperação. Em vez de confiar que tudo daria certo, construíram ambientes preparados para o pior.

Este guia foi criado para ajudar você a fazer o mesmo. Ao longo do conteúdo, explicamos o que é continuidade de serviços de TI, quais são os principais componentes para começar e as melhores práticas para criar um plano que funcione quando as coisas fogem do controle.

A continuidade de serviços de TI é apenas uma parte de um contexto mais amplo de continuidade de negócios. Enquanto a continuidade de negócios tem como objetivo manter toda a organização resiliente diante de interrupções, como desastres naturais ou ataques cibernéticos, a continuidade de serviços de TI concentra-se em garantir que os serviços críticos permaneçam operacionais. Um plano eficaz vai além da recuperação, pois envolve preparação, capacidade de resposta e redução do tempo de indisponibilidade nos momentos mais graves.

A continuidade de atividades não se restringe a grandes desastres, abrangendo uma ampla variedade de cenários, desde uma queda de energia no data center principal até situações aparentemente simples, como a falha de um servidor local. Em alguns casos, as operações podem ser transferidas para um site secundário; em outros, procedimentos manuais entram em ação para manter os serviços em funcionamento.

Em todas essas situações, contar com processos previamente definidos e testados, que orientem as equipes a responder com rapidez e eficácia, é parte fundamental da continuidade de serviços de TI. O objetivo é claro: minimizar a interrupção e retomar as operações com o menor impacto possível para o negócio.

Além disso, a continuidade de serviços de TI não pode ser tratada como um evento isolado, pois é um processo contínuo, que evolui à medida que o ambiente e os riscos associados mudam. Uma das estruturas mais reconhecidos nessa área foi desenvolvida pelo Department of Homeland Security em parceria com a Carnegie Mellon University e propõe um ciclo estruturado que envolve:

Estabelecer um programa de continuidade de serviços de TI.
Criar planos de continuidade de serviços.
Validar e executar testes dos planos de continuidade de serviços de TI.
Aprimorar de forma consistente a continuidade dos serviços de TI.

Então, qual é a diferença real entre gerenciamento de grandes incidentes e gerenciamento da continuidade de serviços de TI (ITSCM)?

À primeira vista, os dois parecem lidar com interrupções graves, como indisponibilidades de servidores, falhas em data centers e problemas críticos de TI que afetam toda a organização.

A diferença está na abordagem.

O gerenciamento de grandes incidentes tem caráter reativo e se concentra em responder rapidamente a eventos inesperados. Trata-se da atuação na linha de frente para restaurar os serviços o mais rápido possível.

A continuidade de serviços de TI, por outro lado, adota uma postura proativa. Envolve o planejamento antecipado para riscos conhecidos, como uma falha de energia em um data center, e a execução de estratégias previamente definidas para manter o negócio em operação, com o mínimo de interrupção.

Gerenciamento de grandes incidentes	Gerenciamento da continuidade de serviços de TI
O gerenciamento de grandes incidentes lida com problemas de infraestrutura de TI de alto impacto que não eram previstos e que, em geral, não paralisam completamente a organização.	Os planos de ITSCM entram em ação quando ocorre um grande desastre, conforme os critérios definidos por cada organização.
A equipe de resposta a grandes incidentes atua de forma reativa, com foco em intervir rapidamente para corrigir o problema e restaurar os serviços no menor tempo possível.	O ITSCM, por sua vez, adota uma abordagem proativa. Envolve a definição de medidas preventivas e planos para evitar interrupções em larga escala ou, quando isso não é viável, lidar com elas de maneira eficiente.

Como vimos anteriormente, a continuidade de serviços de TI é um processo cíclico e, em geral, segue quatro etapas principais:

Etapa 1: Obter apoio para um programa de continuidade de serviços de TI

Garantir o engajamento da alta liderança: A criação de um plano de continuidade de serviços de TI não pode ser conduzida apenas pela área de TI. Exige envolvimento entre setores, alinhamento organizacional e recursos distribuídos por toda a empresa. Por isso, conquistar o apoio da alta liderança desde o início é fundamental. Quando a liderança está engajada, ela consegue patrocinar a iniciativa, viabilizar os recursos necessários e definir responsabilidades entre as equipes.
Definir escopo e objetivos: Comece com uma definição clara de escopo que inclua os serviços críticos para o negócio. À medida que o programa de continuidade evolui, esse escopo pode ser ampliado de forma gradual para outros serviços. Uma CMDB bem mantida é especialmente valiosa nesse ponto, pois ajuda a priorizar serviços críticos, identificar responsáveis, mapear dependências com fornecedores externos e conduzir a análise de impacto nos negócios (BIA).
Desenvolver políticas e padrões: Estabeleça uma base sólida com políticas claras, documentação estruturada e um framework definido para a continuidade de serviços de TI. Isso inclui organogramas, objetivos de curto e longo prazo, avaliações de risco, procedimentos e templates de BIA, planos de coordenação com fornecedores e todos os materiais de apoio necessários para que os planos de continuidade sejam executados de forma consistente.

Etapa 2: Criar o plano de continuidade de serviços de TI

Garantir os fundamentos do plano: Antes de lidar com cenários específicos, certifique-se de que o plano de continuidade cubra os elementos essenciais. Ele deve contemplar, no mínimo, os seguintes princípios básicos antes de avançar para procedimentos de recuperação mais complexos.
- Contatos-chave e funções, incluindo substitutos em caso de indisponibilidade dos responsáveis principais
- Localização redundante ou arquitetura alternativa de sistemas
- Procedimentos de recuperação
- Critérios claros que definam quando o plano deve ser acionado
- Dependências de terceiros
- Aspectos legais, regulatórios e de conformidade
- Protocolos de comunicação
Criar um repositório de acesso seguro: Armazene os planos de continuidade de serviços de TI em um local que seja acessível mesmo durante interrupções ou emergências. Ao mesmo tempo, implemente controles rigorosos de acesso para garantir que apenas pessoas autorizadas possam visualizar ou modificar esse conteúdo.

Etapa 3: Validar e colocar os planos de continuidade em prática

Revisar e testar os planos periodicamente: Os planos de continuidade precisam ser revisados e testados sempre que ocorrerem mudanças na infraestrutura de TI ou organizacional que possam afetar a recuperação. Simulações periódicas ajudam a identificar lacunas, sobreposições e limitações de recursos. Algumas das melhores práticas incluem:
- Testar serviços críticos trimestralmente, enquanto outras partes do plano podem ser validadas anualmente.
- Simular cenários reais de comunicação e coordenação, envolvendo todas as partes interessadas, fornecedores e, quando necessário, clientes.
Documentar e analisar os resultados: Registre problemas de desempenho, pontos de falha e gargalos de recursos identificados durante testes ou incidentes reais. As análises pós-incidente devem ser realizadas não apenas após simulações, mas também após interrupções reais. Esses insights são essenciais para fortalecer e aprimorar continuamente os planos de continuidade.

Etapa 4: Aprimorar o programa de forma contínua

Utilizar métricas e KPIs: Defina KPIs alinhados à estrutura e aos objetivos da organização. Métricas comuns incluem a eficácia dos planos, a cobertura entre serviços, os tempos reais de recuperação e a frequência com que os tempos de recuperação estabelecidos são atendidos. Esses indicadores ajudam a identificar o que funciona bem e o que exige ajustes.
Manter atenção constante às ameaças potenciais: Ataques de ransomware, interrupções causadas por fornecedores ou eventos climáticos severos exigem avaliação contínua da capacidade do plano de continuidade de absorver esses impactos. Essa atenção não deve surgir apenas em revisões formais, mas fazer parte da rotina das equipes. Planejar a continuidade é tanto uma questão de cultura quanto de processo.

Sem uma estrutura de ITSM bem definida, muitos elementos dos planos de continuidade de serviços de TI simplesmente não funcionam como deveriam. Um plano pode estar bem elaborado no papel, mas tende a falhar rapidamente se a organização não gerenciar seus serviços com base em práticas consolidadas, como a ITIL®.

Vamos entender melhor por que uma estrutura sólida de ITSCM só funciona com práticas consolidadas de ITSM. Trata-se de algo muito mais amplo do que simplesmente manter planos de contingência disponíveis.

Um plano de continuidade de serviços de TI é composto por três elementos principais:

BIA
Planos de recuperação
Testes e atualizações regulares

Cada um desses elementos depende de outros processos centrais de ITSM para funcionar de forma eficaz.

1. Desenvolvimento da BIA

Uma das primeiras etapas de qualquer plano de ITSCM é a realização da análise de impacto nos negócios (BIA) e a definição de medidas de mitigação de riscos. A BIA ajuda a identificar pontos críticos de falha no ambiente de TI que podem causar impactos significativos nas operações.

Gerenciamento de configuração de serviços: O objetivo do gerenciamento de configuração de serviços é manter o registro de todas as relações de infraestrutura e dependências entre sistemas na CMDB. Com mapas de relacionamento e dependência atualizados em tempo real, administradores de TI conseguem visualizar com clareza o impacto potencial de uma falha. Esse nível de visibilidade torna os resultados da BIA mais precisos e confiáveis.
Medição e geração de relatórios: Equipes de service desk eficientes acompanham KPIs, ajustam suas operações com base em relatórios periódicos e utilizam previsões para se preparar para demandas futuras. Essas previsões ajudam a identificar riscos com antecedência. Por exemplo, se os dados indicarem que um servidor de aplicações pode enfrentar alta carga em determinado período, administradores de TI podem atuar de forma preventiva, como ao implementar balanceadores de carga adicionais, orientados pela análise de impacto obtida a partir dos mapas de dependência da CMDB. Essas ações também fazem parte das medidas de mitigação que sustentam a continuidade dos serviços.

2. Insumos para os planos de recuperação

Gerenciamento de disponibilidade: Como a equipe de ITOM normalmente responde pelo gerenciamento de disponibilidade, as equipes de ITSCM dependem dessa especialização para sistemas críticos, como servidores de backup. Alinhar os planos de recuperação aos procedimentos consolidados de ITOM aumenta a eficácia das iniciativas de ITSCM e favorece restaurações rápidas e bem-sucedidas durante interrupções.
Gerenciamento de problemas: Equipes que mantêm um database de erros conhecidos no contexto do gerenciamento de problemas contam com uma vantagem adicional. Caso um problema de componente ou de infraestrutura afete o processo de recuperação, esse database é atualizado. A equipe de continuidade de serviços pode, então, ajustar seus planos de recuperação e soluções alternativas com base nessas informações.

3. Testes e atualização dos planos de recuperação

Gerenciamento de capacidade: O gerenciamento de capacidade assegura que a infraestrutura de TI consiga atender às demandas dos clientes e apoia o planejamento de expansão à medida que os recursos se aproximam do limite de utilização. Esse ponto ganha ainda mais relevância durante simulações de recuperação, nas quais os serviços operam com capacidade reduzida em cenários de desastre. A equipe de gerenciamento de capacidade define como os serviços devem funcionar nessas condições. Por isso, os sistemas alternativos e os níveis reduzidos de capacidade precisam ser testados durante as simulações de recuperação para garantir alinhamento aos SLAs firmados com os clientes.
Gerenciamento de mudanças: Como a infraestrutura de TI passa por mudanças frequentes, os processos de recuperação também exigem ajustes constantes. Para evitar perda de tempo em situações críticas, qualquer mudança que afete o plano de recuperação precisa ser identificada e atualizada imediatamente. A participação das partes interessadas da continuidade de serviços nas reuniões do conselho consultivo de mudanças ajuda a assegurar que os tempos de recuperação de sistemas críticos não sejam comprometidos.

No cenário atual, a continuidade de serviços de TI deixou de ser um diferencial e passou a ser uma necessidade. De desastres inesperados, como o incêndio da OVHcloud, a interrupções mais comuns, como falhas na rede elétrica ou em equipamentos de rede, a imagem e reputação da empresa dependem do nível de proatividade com que a equipe de TI gerencia seu ambiente.

Este guia apresentou as etapas essenciais, desde a obtenção do apoio da liderança e a criação dos planos até a validação, os testes e o aprimoramento contínuo. No entanto, o que realmente diferencia um programa de continuidade de serviços de TI eficaz é sua integração com práticas centrais de ITSM. Seja no gerenciamento de configuração, de problemas, de capacidade ou de mudanças, os esforços de continuidade são tão sólidos quanto a base de ITSM que os sustenta.

A principal lição é que a continuidade de serviços de TI não é um projeto pontual nem apenas mais um documento arquivado. É, na verdade, um componente vivo da estratégia de TI. Quanto mais cedo a organização passar a tratar o ITSCM dessa forma, maior será sua resiliência.

Porque, quando as luzes se apagam, são os planos de continuidade de serviços de TI que mantêm o negócio em funcionamento.

Isso despertou seu interesse?

Se a sua organização busca avançar rumo a uma estrutura de ITSM mais robusta, uma plataforma de ITSM pode ajudar a aplicar padrões do setor, como a ITIL.

O ServiceDesk Plus da ManageEngine, a principal plataforma de ITSM da ManageEngine, possui certificação em 14 práticas da ITIL e ajuda a estabelecer uma base sólida para a continuidade de serviços de TI.

Agende uma demo com nossos especialistas e veja como o ServiceDesk Plus pode ser adaptado ao seu ambiente de TI.

Agendar uma demo

O que as equipes de TI precisam saber sobre continuidade de serviços

O que a continuidade de serviços de TI realmente significa para o seu negócio

Como estabelecer a base para planos de continuidade de serviços de TI