O que é resiliência de rede?

Resiliência é a capacidade de uma rede de lidar com interrupções e continuar oferecendo seus serviços aos usuários em um padrão aceitável. As operações de rede podem ser ameaçadas por problemas como configurações incorretas, falta de energia ou erros do operador. Quando essas eventualidades acontecem, os usuários finais não conseguem acessar a rede, afetando negativamente a organização. As redes altamente resilientes podem evitar isso, restaurando as operações de rede quando elas caem.

A importância da resiliência nas organizações de TI modernas
Redundância vs. resiliência
Como se planejar para o tempo de inatividade?
7 dicas para melhorar a resiliência de sua rede
Monitore a resiliência da rede com o OpManager

A importância da resiliência nas organizações de TI modernas

Há pouco espaço para tempo de inatividade nas organizações de TI modernas. A Gartner calculou que uma organização perde cerca de US$ 300.000 por cada hora de tempo de inatividade, e há outros estudos que consideram até mesmo esse número conservador. O tempo de inatividade afeta as empresas em dois níveis: A perda real de dinheiro devido à interrupção dos negócios e a perda de reputação, muitas vezes negligenciada, afinal, as pessoas odeiam ver telas azuis de erro ou perder todas as informações que inseriram.

Para combater isso, as empresas oferecem termos cada vez melhores em seus SLA, por exemplo, os cinco noves de disponibilidade para até 99,999% de tempo de atividade para operações de rede. Isso permite cerca de um minuto de tempo de inatividade por dia. Esses padrões elevados só podem ser alcançados com uma infraestrutura de rede altamente resiliente.

Redundância de rede x Resiliência de rede

Uma maneira de garantir a continuidade das operações de rede é ter um failover implementado. Isso é chamado de redundância de rede. As redes redundantes têm vários dispositivos capazes de executar as mesmas operações. Quando um deles fica inoperante, o outro assume sua função e retoma a operação normal da rede.

Um exemplo disso são os firewalls com conexões duplicadas com a rede que estão protegendo. O firewall secundário recebe relatórios periódicos de integridade do primário. Quando não recebe um relatório por algum tempo, ele presume que o primário está inativo e assume suas funções. O tempo necessário para que o secundário assuma que o primário está inativo e assuma suas funções é conhecido como crossover.

Embora a redundância seja um método simples para evitar o tempo de inatividade, a resiliência é mais sutil. Ela envolve a restauração das operações de rede em vez de sua substituição total. As redes enfrentam muitos problemas, pequenos e grandes, diariamente. É difícil e caro planejar redundâncias para todos eles. Podemos contornar esse problema reduzindo o tempo de identificação e resolução de falhas.

Alguns termos relacionados à redundância e à resiliência da rede

Alta disponibilidade: Esse é um tipo de redundância que minimiza o tempo de inatividade ao alternar instantaneamente para o failover. Por exemplo, os roteadores de alta disponibilidade verificam o status de seus dispositivos primários com frequência. Quando ocorre uma falha, eles assumem o controle das operações.

Imagem mostrando como ter dois roteadores (redundância) pode diminuir o tempo de inatividade de uma rede

Tolerância a falhas: Às vezes, o dispositivo primário pode ter falhado e pode haver um atraso até que o secundário verifique seu status e assuma o controle. As informações inseridas pelos usuários durante esse período podem ser perdidas. Os sistemas tolerantes a falhas eliminam esse atraso fazendo com que tanto o primário quanto o secundário compartilhem a carga. Ambos os servidores verificam o status um do outro. Quando um deles falha, o outro assume a carga total. Dessa forma, mesmo que suas operações se tornem limitadas, a rede não fica totalmente inoperante.

Ilustração de como funciona um balanceador de carga

Replicação: A replicação de rede é uma forma de obter redundância por meio do espelhamento instantâneo de todos os dados do primário para o secundário. Os servidores primário e secundário serão sincronizados, e a perda de dados será mínima.

Ponto único de falha: Esse termo refere-se a uma vulnerabilidade na rede que pode interromper todas as suas operações. Pode ser um firewall atrás do qual a rede está posicionada, um balanceador de carga ou uma linha de cabo que a conecta à WAN. Os administradores de rede devem tentar eliminar os pontos únicos de falha.

Como planejar o tempo de inatividade?

Normalmente, há três causas para o tempo de inatividade. As causas conhecidas são aquelas das quais você está ciente e para as quais se planeja. A manutenção e os upgrades se enquadram nessa categoria. Você pode programá-las para que não afetem as operações da rede de forma significativa.

Depois, há as causas conhecidas e desconhecidas. Essas causas não podem ser premeditadas, mas você sabe onde procurar respostas quando elas acontecem e como corrigi-las. Isso inclui configurações incorretas, erros humanos, falhas de dispositivos ou interrupções na rede. Você precisa encontrar a causa do problema rapidamente e corrigi-lo.

Por fim, há as incógnitas desconhecidas. São eventos fora do seu controle, como furacões, inundações, relâmpagos ou desastres causados pelo homem. A melhor maneira de lidar com as incógnitas desconhecidas é armazenar os dados em vários locais, no armazenamento em nuvem ou em data centers.

7 dicas para melhorar a resiliência de sua rede

É difícil tornar sua rede à prova de paralisações. Mesmo que você siga perfeitamente os padrões e as diretrizes, pode haver alguns problemas que você simplesmente não consegue evitar. Dito isso, é sempre bom estar preparado. Listamos aqui algumas dicas e medidas que você pode seguir para melhorar a resiliência da sua infraestrutura de rede.

Obtenha redundância em todos os níveis de sua organização: A redundância geralmente é a melhor maneira de melhorar a resiliência da rede. Você pode obter redundância em diferentes níveis de sua organização para minimizar as interrupções. No nível da máquina, isso pode ser feito com processadores redundantes, sistemas operacionais e backups de dados. No nível do dispositivo, isso se refere a redundâncias para dispositivos de ponto único de falha, como roteadores, ou dispositivos essenciais para a operação da rede, como alguns servidores. A redundância também é obtida no nível do local com data centers ou armazenamento em nuvem, o que garante a operação contínua da rede mesmo que ocorram quedas de energia em grande escala ou desastres naturais.

Elimine pontos únicos de falha: N Não importa o quão avançadas sejam suas medidas de segurança, um único ponto de falha pode derrubar tudo. Os pontos únicos de falha geralmente podem ser descobertos inesperadamente. Por exemplo, já vimos conexões redundantes a um firewall de rede passando pela mesma linha em um edifício. Uma interrupção nesses cabos pode derrubar o firewall primário e o redundante de uma só vez. Os sistemas tolerantes a falhas que usam balanceadores de carga também podem falhar, pois os balanceadores de carga geralmente são um ponto único de falha. Você precisa analisar sua rede em busca de pontos únicos de falha e encontrar maneiras de eliminá-los.

Garantir o fornecimento constante de energia: As quedas de energia podem ocorrer a qualquer momento, podem durar um período de tempo imprevisto e podem interromper completamente as operações de sua rede. Portanto, geradores e fontes de alimentação ininterruptas são um bom investimento a ser feito. É necessário verificar regularmente os dispositivos de fonte de alimentação ininterrupta durante as operações de manutenção para ver se estão funcionando corretamente. Também é uma boa ideia ter geradores de backup no local, caso os primários fiquem inoperantes durante uma interrupção.

Realize upgrades e manutenção regularmente: Atualizações e manutenções regulares são parte fundamental de uma rede resiliente e saudável. Sem atualizações regulares, seu software pode ficar sem suporte e colocar suas operações em risco. Atualizações regulares devem ser feitas para o firmware de dispositivos como roteadores e switches, sistemas operacionais, software essencial e software antimalware. A manutenção planejada periódica também é necessária para manter seus dispositivos em sua melhor forma e operando sem problemas.

Teste seus backups: É uma boa prática verificar os backups de dados durante as operações de manutenção para ver se o backup dos dados está seguro. Descobrir que seus backups não funcionam após uma interrupção é uma experiência incrivelmente frustrante que poderia ter sido facilmente evitada. Dependendo da natureza dos dados armazenados, a frequência do backup pode ser alterada. O backup de dados críticos deve ser feito com mais frequência para reduzir as chances de perda de dados. Os backups também devem ser armazenados em data centers remotos para evitar a chance de serem perdidos devido a incêndios ou outros desastres.

Garanta o resfriamento adequado: Seus dispositivos geram muito calor durante a operação. Os sistemas de resfriamento são usados para manter a temperatura em níveis controláveis. É absolutamente imperativo ter um sistema de resfriamento independente e confiável que possa operar durante quedas de energia ou desastres naturais, como chuvas fortes ou inundações.

Siga as convenções de nomenclatura adequadas para arquivos importantes:: Os erros humanos geralmente são causados pela exclusão acidental de arquivos ou chaves importantes. Isso pode ser evitado com uma convenção de nomenclatura adequada dentro da organização. A ativação de uma função de exclusão suave para arquivos importantes também pode ajudar a restaurá-los.

Monitore a resiliência da rede com o OpManager

Usar uma ferramenta de monitoramento de rede para vigiar a sua rede é a aposta mais segura para protegê-la contra o tempo de inatividade. Dessa forma, você pode descobrir problemas de rede antecipadamente e corrigi-los de forma proativa.

O OpManager é uma ferramenta de monitoramento de rede que monitora todos os componentes da sua rede e gera alertas em tempo real sobre quaisquer discrepâncias. Essa visibilidade profunda de sua rede certamente pode ajudar. Mas o OpManager vai além, melhorando a resiliência de sua rede com seus recursos avançados de identificação e resolução de falhas.

Limites adaptativos: Os limiares adaptativos do OpManager, alimentados por ML, ajudam a refinar a solução de problemas, eliminando falsos positivos e inundações de alertas. O OpManager estuda o desempenho normal da sua rede em um período de treinamento de três dias e, em seguida, define limites por hora de acordo com a atividade da rede naquele momento.

Configurações do OpManager para thresholds adaptativos

Fluxos de trabalho automatizados: Aumente a resiliência da rede automatizando as operações básicas de solução de problemas. Você pode criar fluxos de trabalho para ações como reiniciar um serviço parado, limpar alertas redundantes, verificar se os dispositivos estão respondendo e executar scripts.

Ilustração de como funciona um workflow automatizado no OpManager

Análise da causa raiz: Se ocorrer uma interrupção, é imperativo que você descubra o que a causou o mais rápido possível. Os perfis de análise de causa raiz do OpManager o ajudam a correlacionar os dados de até 20 entidades para rastrear a causa raiz por trás de uma interrupção.

Essa é apenas a ponta do iceberg. O OpManager vem carregado com uma tonelada de outros recursos e ferramentas para fortalecer sua rede contra o tempo de inatividade. Faça o download do OpManager ou experimente nosso teste gratuito de 30 dias para sentir a diferença.