Os limiares adaptativos permitem que os usuários otimizem a eficiência dos alertas, modificando dinamicamente os valores de limiar para monitores críticos usando algoritmos preditivos baseados em Machine Learning do OpManager. Isso elimina a necessidade de intervenção manual, analisando padrões de dados e ajustando limiares para minimizar falsos alertas, garantindo ao mesmo tempo que problemas críticos sejam detectados.
Com o tempo, o recurso aprende a reconhecer ciclos horários, diários, semanais e até mensais, e adapta automaticamente os limiares para corresponder a esses padrões recorrentes. Isso garante que flutuações previsíveis, como picos diários de tráfego, atividades semanais de manutenção ou cargas de processamento no fim do mês, não gerem alertas desnecessários, mas ainda assim destaquem anomalias reais.
Depois que os limiares adaptativos são habilitados, o OpManager coleta os dados de desempenho necessários de todos os monitores e os envia para seus algoritmos preditivos avançados. Esses dados são coletados por um período mínimo de 14 dias.
Tradicionalmente, o OpManager usa os últimos 14 dias de dados para começar a gerar alertas. Isso pode causar um pequeno atraso no disparo de alertas quando o recurso de Limiar Adaptativo é habilitado pela primeira vez. Porém, à medida que o OpManager é usado por um período mais longo, ele reúne dados históricos suficientes para detectar e se adaptar a padrões recorrentes semanais e mensais. Isso permite que o OpManager ajuste automaticamente os limiares para atividades que ocorrem em uma agenda regular, como janelas semanais de manutenção ou picos de transações no fim do mês.
Exemplo: Para empresas, o uso da rede costuma variar ao longo da semana, com menor atividade nos fins de semana e cargas mais altas nas manhãs de segunda-feira. Inicialmente, essas flutuações podem disparar falsos alertas como se fossem anomalias. Após observar esses dados históricos, o OpManager se adapta automaticamente e ajusta os limiares para corresponder a essas mudanças previsíveis.
Para cada hora, os algoritmos preditivos do OpManager fornecem um valor previsto (Forecast) com base em padrões e comportamentos de dados observados anteriormente, e os valores de desvio configurados pelo usuário são aplicados com base nesse valor. Por exemplo, considere os seguintes valores de desvio.
Observe que o desvio pode ser descrito em termos de valores ou em termos de porcentagem. Vamos considerar isso com um exemplo.
| Atenção | Problema | Crítico |
|---|---|---|
| 5 | 8 | 15 |
Podemos configurar o valor de desvio por valores ou por porcentagens, conforme descrito abaixo.
1. Desvio em termos de valor: Se o valor previsto para a utilização de CPU de um dispositivo for 34 para a primeira hora do dia (0:00 - 1:00), então o valor correspondente para disparar um alerta com severidade "Atenção" será 34+5=39 (Forecast + desvio de Atenção). Da mesma forma, os valores de Problema e Crítico também são calculados a cada hora. Os valores calculados para 5 horas consecutivas para diferentes valores previstos seriam os seguintes:
| Hora | Valor previsto | Valor de Atenção | Valor de Problema | Valor Crítico |
|---|---|---|---|---|
| 0:00 - 1:00 | 34 | 39 | 42 | 49 |
| 1:00 - 2:00 | 36 | 41 | 44 | 51 |
| 2:00 - 3:00 | 44 | 49 | 52 | 59 |
| 3:00 - 4:00 | 58 | 63 | 66 | 73 |
| 4:00 - 5:00 | 54 | 59 | 62 | 69 |
2. Desvio em termos de porcentagem: Se o valor previsto para a utilização de CPU de um dispositivo for 34 para a primeira hora do dia (0:00 - 1:00), então o valor correspondente para disparar um alerta com severidade "Atenção" será 34+(5% de 34)=36 (Valor previsto + porcentagem de desvio de Atenção do valor previsto). Da mesma forma, os valores de Problema e Crítico também são calculados a cada hora. Os valores calculados para 5 horas consecutivas para diferentes valores previstos seriam os seguintes:
| Hora | Valor previsto | Valor de Atenção | Valor de Problema | Valor Crítico |
|---|---|---|---|---|
| 0:00 - 1:00 | 34 | 36 | 37 | 39 |
| 1:00 - 2:00 | 36 | 38 | 39 | 41 |
| 2:00 - 3:00 | 44 | 46 | 48 | 51 |
| 3:00 - 4:00 | 58 | 61 | 63 | 67 |
| 4:00 - 5:00 | 54 | 57 | 58 | 62 |
3. Configuração avançada: Além dos valores de desvio, o OpManager oferece as seguintes opções para ajustar o comportamento dos alertas.
Limites de supressão: Configure um valor abaixo do qual os alertas serão automaticamente suprimidos, evitando alarmes desnecessários para pequenos desvios.
Exemplo: Se o limiar adaptativo configurado para utilização de CPU estiver definido como 50, e você configurar um limite de supressão de 52, qualquer valor real abaixo de 52 não acionará um alerta.
Limites estáticos: Defina limiares superiores fixos que, quando ultrapassados, sempre dispararão um alerta, independentemente dos valores de limiar adaptativo configurados.
Exemplo: Se você definir um limite superior estático de 90 para utilização de CPU, um alerta será disparado imediatamente quando o uso atingir ou exceder 90, mesmo que o valor de limiar adaptativo seja maior.
Para configurar:
Antes de habilitar a opção de limiares adaptativos, observe que:
Os limiares adaptativos podem ser habilitados globalmente em todo o OpManager em Settings -> Monitoring -> Adaptive Threshold. Navegue até essa página e habilite a opção "Enable Adaptive Threshold". Você também pode habilitar limiares adaptativos em nível individual, a partir do respectivo monitor de desempenho, grupo de desempenho (perf group) ou modelo de dispositivo, e definir os níveis de desvio em valor ou em porcentagem.
Depois de habilitado, ele pode ser controlado em vários níveis, de acordo com suas necessidades: