Limiares Adaptativos no OpManager

Os limiares adaptativos permitem que os usuários otimizem a eficiência dos alertas, modificando dinamicamente os valores de limiar para monitores críticos usando algoritmos preditivos baseados em Machine Learning do OpManager. Isso elimina a necessidade de intervenção manual, analisando padrões de dados e ajustando limiares para minimizar falsos alertas, garantindo ao mesmo tempo que problemas críticos sejam detectados.

Com o tempo, o recurso aprende a reconhecer ciclos horários, diários, semanais e até mensais, e adapta automaticamente os limiares para corresponder a esses padrões recorrentes. Isso garante que flutuações previsíveis, como picos diários de tráfego, atividades semanais de manutenção ou cargas de processamento no fim do mês, não gerem alertas desnecessários, mas ainda assim destaquem anomalias reais.

Como funcionam os limiares adaptativos do OpManager?

Depois que os limiares adaptativos são habilitados, o OpManager coleta os dados de desempenho necessários de todos os monitores e os envia para seus algoritmos preditivos avançados. Esses dados são coletados por um período mínimo de 14 dias.

Os algoritmos analisam os dados registrados e geram valores de limiar relevantes, considerando cada valor e padrão.
Quando o OpManager tiver pelo menos 14 dias de dados para o(s) monitor(es) selecionado(s), ele finaliza o padrão de dados e começa a aplicar valores de limiar previstos para esses monitores.
Ao habilitar os limiares adaptativos, o OpManager coleta do usuário o que são chamados de "valores de desvio". Eles determinam o quanto o valor coletado pode variar antes que um alerta seja disparado.
Existem três valores de desvio, um para cada nível de severidade: Atenção, Problema e Crítico. Esses valores podem ser configurados em porcentagens ou valores fixos, e em ordem crescente ou decrescente.

Adaptação dinâmica

Tradicionalmente, o OpManager usa os últimos 14 dias de dados para começar a gerar alertas. Isso pode causar um pequeno atraso no disparo de alertas quando o recurso de Limiar Adaptativo é habilitado pela primeira vez. Porém, à medida que o OpManager é usado por um período mais longo, ele reúne dados históricos suficientes para detectar e se adaptar a padrões recorrentes semanais e mensais. Isso permite que o OpManager ajuste automaticamente os limiares para atividades que ocorrem em uma agenda regular, como janelas semanais de manutenção ou picos de transações no fim do mês.

O OpManager adapta os limiares dinamicamente para variações horárias e diárias, como maior uso de CPU durante o horário comercial de pico ou atividade reduzida fora do horário de expediente.
Se atividades recorrentes ocorrerem semanalmente, como manutenção agendada toda sexta à noite ou aumento na utilização de CPU nas tardes de segunda-feira, o OpManager adapta o limiar de acordo para essa janela de tempo específica.
Com coletas de dados por períodos mais longos, o OpManager detecta picos operacionais mensais e ajusta os limiares automaticamente.

Exemplo: Para empresas, o uso da rede costuma variar ao longo da semana, com menor atividade nos fins de semana e cargas mais altas nas manhãs de segunda-feira. Inicialmente, essas flutuações podem disparar falsos alertas como se fossem anomalias. Após observar esses dados históricos, o OpManager se adapta automaticamente e ajusta os limiares para corresponder a essas mudanças previsíveis.

Como os limiares são calculados no modo de Limiar Adaptativo?

Para cada hora, os algoritmos preditivos do OpManager fornecem um valor previsto (Forecast) com base em padrões e comportamentos de dados observados anteriormente, e os valores de desvio configurados pelo usuário são aplicados com base nesse valor. Por exemplo, considere os seguintes valores de desvio.

Observe que o desvio pode ser descrito em termos de valores ou em termos de porcentagem. Vamos considerar isso com um exemplo.

Atenção	Problema	Crítico
5	8	15

Podemos configurar o valor de desvio por valores ou por porcentagens, conforme descrito abaixo.

1. Desvio em termos de valor: Se o valor previsto para a utilização de CPU de um dispositivo for 34 para a primeira hora do dia (0:00 - 1:00), então o valor correspondente para disparar um alerta com severidade "Atenção" será 34+5=39 (Forecast + desvio de Atenção). Da mesma forma, os valores de Problema e Crítico também são calculados a cada hora. Os valores calculados para 5 horas consecutivas para diferentes valores previstos seriam os seguintes:

Hora	Valor previsto	Valor de Atenção	Valor de Problema	Valor Crítico
0:00 - 1:00	34	39	42	49
1:00 - 2:00	36	41	44	51
2:00 - 3:00	44	49	52	59
3:00 - 4:00	58	63	66	73
4:00 - 5:00	54	59	62	69

2. Desvio em termos de porcentagem: Se o valor previsto para a utilização de CPU de um dispositivo for 34 para a primeira hora do dia (0:00 - 1:00), então o valor correspondente para disparar um alerta com severidade "Atenção" será 34+(5% de 34)=36 (Valor previsto + porcentagem de desvio de Atenção do valor previsto). Da mesma forma, os valores de Problema e Crítico também são calculados a cada hora. Os valores calculados para 5 horas consecutivas para diferentes valores previstos seriam os seguintes:

Hora	Valor previsto	Valor de Atenção	Valor de Problema	Valor Crítico
0:00 - 1:00	34	36	37	39
1:00 - 2:00	36	38	39	41
2:00 - 3:00	44	46	48	51
3:00 - 4:00	58	61	63	67
4:00 - 5:00	54	57	58	62

3. Configuração avançada: Além dos valores de desvio, o OpManager oferece as seguintes opções para ajustar o comportamento dos alertas.

Limites de supressão: Configure um valor abaixo do qual os alertas serão automaticamente suprimidos, evitando alarmes desnecessários para pequenos desvios.
Exemplo: Se o limiar adaptativo configurado para utilização de CPU estiver definido como 50, e você configurar um limite de supressão de 52, qualquer valor real abaixo de 52 não acionará um alerta.

Limites estáticos: Defina limiares superiores fixos que, quando ultrapassados, sempre dispararão um alerta, independentemente dos valores de limiar adaptativo configurados.
Exemplo: Se você definir um limite superior estático de 90 para utilização de CPU, um alerta será disparado imediatamente quando o uso atingir ou exceder 90, mesmo que o valor de limiar adaptativo seja maior.

Para configurar:

Navegue até Settings > Monitoring > Adaptive Threshold.
Selecione a opção Enabled Monitors.
Clique no ícone Edit localizado na coluna Action, correspondente ao monitor ou grupo de desempenho desejado.
Defina os Suppress Limits, Static Limits e Deviation Values necessários.

Habilitando limiares adaptativos

Antes de habilitar a opção de limiares adaptativos, observe que:

Esse recurso está atualmente disponível para todos os monitores de desempenho no OpManager.
O OpManager exigirá no mínimo quatorze dias de dados de desempenho para estabelecer com sucesso padrões de dados e implementar um modelo. Se você estiver adicionando um novo dispositivo e quiser começar a monitorá-lo imediatamente, poderá usar limiares manuais durante esse período.
O recurso de limiares adaptativos precisa ser habilitado primeiro globalmente para que possa ser usado como opção em todas as outras páginas. Se ele estiver desabilitado globalmente, apenas limiares manuais poderão ser configurados em todo o OpManager.
Além disso, se os limiares adaptativos forem habilitados a partir de um modelo de dispositivo, todos os dispositivos que forem posteriormente descobertos com base nesse modelo de dispositivo terão os limiares adaptativos habilitados para os monitores por padrão.

Os limiares adaptativos podem ser habilitados globalmente em todo o OpManager em Settings -> Monitoring -> Adaptive Threshold. Navegue até essa página e habilite a opção "Enable Adaptive Threshold". Você também pode habilitar limiares adaptativos em nível individual, a partir do respectivo monitor de desempenho, grupo de desempenho (perf group) ou modelo de dispositivo, e definir os níveis de desvio em valor ou em porcentagem.

Depois de habilitado, ele pode ser controlado em vários níveis, de acordo com suas necessidades:

Habilitando em nível de monitor ou grupo de desempenho em todo o OpManager:

Você também pode habilitar limiares adaptativos para um monitor específico usado em todo o OpManager. Basta ir à página Performance Monitors em Settings > Monitoring, localizar o monitor para o qual deseja habilitar o recurso e clicar em Edit.
Habilite a opção Adaptive Thresholds, configure os valores de desvio e clique em OK para salvar.
Habilitando por meio de modelos de dispositivo (Device Templates):

Também é possível habilitar limiares adaptativos para monitores a partir de modelos de dispositivo, em um processo semelhante à configuração em nível de monitor, descrita acima.
Vá para Settings -> Configuration -> Device Templates, selecione o modelo apropriado e então clique em qualquer um dos monitores compatíveis para habilitar os limiares adaptativos. Configure os valores de desvio e, ao finalizar, clique em OK para salvar suas alterações.
Para aplicar essa alteração diretamente aos dispositivos sob o modelo, clique em Save and Associate. Você pode selecionar os dispositivos aos quais deseja aplicar essas alterações e clicar em Associate and Overwrite para aplicá-las.
Se quiser aplicar essa alteração de limiar apenas a dispositivos que serão descobertos no futuro, clique em "Save".
Habilitando limiares adaptativos a partir da página de snapshot do dispositivo:

Esse método será útil quando os limiares adaptativos precisarem ser habilitados/desabilitados apenas para alguns dispositivos.
Basta ir para a página Device Snapshot do(s) dispositivo(s), navegar até qualquer um dos monitores compatíveis, clicar em Edit e habilitar a opção Adaptive Thresholds.
Selecione os botões de opção de valor ou porcentagem em Deviation in e, em seguida, insira os respectivos valores.
Clique em Save para aplicar as alterações ao(s) seu(s) monitor(es). O OpManager começará a prever valores de limiar assim que houver dados suficientes para serem usados pelos algoritmos (mín. 14 dias).