Resiliência é a capacidade de uma rede de lidar com interrupções e continuar oferecendo seus serviços aos usuários em um padrão aceitável. As operações de rede podem ser ameaçadas por problemas como configurações incorretas, falta de energia ou erros do operador. Quando essas eventualidades acontecem, os usuários finais não conseguem acessar a rede, afetando negativamente a organização. As redes altamente resilientes podem evitar isso, restaurando as operações de rede quando elas caem.
Há pouco espaço para tempo de inatividade nas organizações de TI modernas. A Gartner calculou que uma organização perde cerca de US$ 300.000 por cada hora de tempo de inatividade, e há outros estudos que consideram até mesmo esse número conservador. O tempo de inatividade afeta as empresas em dois níveis: A perda real de dinheiro devido à interrupção dos negócios e a perda de reputação, muitas vezes negligenciada, afinal, as pessoas odeiam ver telas azuis de erro ou perder todas as informações que inseriram.
Para combater isso, as empresas oferecem termos cada vez melhores em seus SLA, por exemplo, os cinco noves de disponibilidade para até 99,999% de tempo de atividade para operações de rede. Isso permite cerca de um minuto de tempo de inatividade por dia. Esses padrões elevados só podem ser alcançados com uma infraestrutura de rede altamente resiliente.
Uma maneira de garantir a continuidade das operações de rede é ter um failover implementado. Isso é chamado de redundância de rede. As redes redundantes têm vários dispositivos capazes de executar as mesmas operações. Quando um deles fica inoperante, o outro assume sua função e retoma a operação normal da rede.
Um exemplo disso são os firewalls com conexões duplicadas com a rede que estão protegendo. O firewall secundário recebe relatórios periódicos de integridade do primário. Quando não recebe um relatório por algum tempo, ele presume que o primário está inativo e assume suas funções. O tempo necessário para que o secundário assuma que o primário está inativo e assuma suas funções é conhecido como crossover.
Embora a redundância seja um método simples para evitar o tempo de inatividade, a resiliência é mais sutil. Ela envolve a restauração das operações de rede em vez de sua substituição total. As redes enfrentam muitos problemas, pequenos e grandes, diariamente. É difícil e caro planejar redundâncias para todos eles. Podemos contornar esse problema reduzindo o tempo de identificação e resolução de falhas.
Alta disponibilidade: Esse é um tipo de redundância que minimiza o tempo de inatividade ao alternar instantaneamente para o failover. Por exemplo, os roteadores de alta disponibilidade verificam o status de seus dispositivos primários com frequência. Quando ocorre uma falha, eles assumem o controle das operações.
Tolerância a falhas: Às vezes, o dispositivo primário pode ter falhado e pode haver um atraso até que o secundário verifique seu status e assuma o controle. As informações inseridas pelos usuários durante esse período podem ser perdidas. Os sistemas tolerantes a falhas eliminam esse atraso fazendo com que tanto o primário quanto o secundário compartilhem a carga. Ambos os servidores verificam o status um do outro. Quando um deles falha, o outro assume a carga total. Dessa forma, mesmo que suas operações se tornem limitadas, a rede não fica totalmente inoperante.
Replicação: A replicação de rede é uma forma de obter redundância por meio do espelhamento instantâneo de todos os dados do primário para o secundário. Os servidores primário e secundário serão sincronizados, e a perda de dados será mínima.
Ponto único de falha: Esse termo refere-se a uma vulnerabilidade na rede que pode interromper todas as suas operações. Pode ser um firewall atrás do qual a rede está posicionada, um balanceador de carga ou uma linha de cabo que a conecta à WAN. Os administradores de rede devem tentar eliminar os pontos únicos de falha.
Normalmente, há três causas para o tempo de inatividade. As causas conhecidas são aquelas das quais você está ciente e para as quais se planeja. A manutenção e os upgrades se enquadram nessa categoria. Você pode programá-las para que não afetem as operações da rede de forma significativa.
Depois, há as causas conhecidas e desconhecidas. Essas causas não podem ser premeditadas, mas você sabe onde procurar respostas quando elas acontecem e como corrigi-las. Isso inclui configurações incorretas, erros humanos, falhas de dispositivos ou interrupções na rede. Você precisa encontrar a causa do problema rapidamente e corrigi-lo.
Por fim, há as incógnitas desconhecidas. São eventos fora do seu controle, como furacões, inundações, relâmpagos ou desastres causados pelo homem. A melhor maneira de lidar com as incógnitas desconhecidas é armazenar os dados em vários locais, no armazenamento em nuvem ou em data centers.
É difícil tornar sua rede à prova de paralisações. Mesmo que você siga perfeitamente os padrões e as diretrizes, pode haver alguns problemas que você simplesmente não consegue evitar. Dito isso, é sempre bom estar preparado. Listamos aqui algumas dicas e medidas que você pode seguir para melhorar a resiliência da sua infraestrutura de rede.
Usar uma ferramenta de monitoramento de rede para vigiar a sua rede é a aposta mais segura para protegê-la contra o tempo de inatividade. Dessa forma, você pode descobrir problemas de rede antecipadamente e corrigi-los de forma proativa.
O OpManager é uma ferramenta de monitoramento de rede que monitora todos os componentes da sua rede e gera alertas em tempo real sobre quaisquer discrepâncias. Essa visibilidade profunda de sua rede certamente pode ajudar. Mas o OpManager vai além, melhorando a resiliência de sua rede com seus recursos avançados de identificação e resolução de falhas.
Limites adaptativos: Os limiares adaptativos do OpManager, alimentados por ML, ajudam a refinar a solução de problemas, eliminando falsos positivos e inundações de alertas. O OpManager estuda o desempenho normal da sua rede em um período de treinamento de três dias e, em seguida, define limites por hora de acordo com a atividade da rede naquele momento.
Fluxos de trabalho automatizados: Aumente a resiliência da rede automatizando as operações básicas de solução de problemas. Você pode criar fluxos de trabalho para ações como reiniciar um serviço parado, limpar alertas redundantes, verificar se os dispositivos estão respondendo e executar scripts.
Análise da causa raiz: Se ocorrer uma interrupção, é imperativo que você descubra o que a causou o mais rápido possível. Os perfis de análise de causa raiz do OpManager o ajudam a correlacionar os dados de até 20 entidades para rastrear a causa raiz por trás de uma interrupção.
Essa é apenas a ponta do iceberg. O OpManager vem carregado com uma tonelada de outros recursos e ferramentas para fortalecer sua rede contra o tempo de inatividade. Faça o download do OpManager ou experimente nosso teste gratuito de 30 dias para sentir a diferença.