SLA, SLO, SLI: O trio de KPIs para um gerenciamento de serviços excepcional
13 de setembro | 07 minutos de leitura

O ITSM está constantemente em busca de oferecer melhores experiências ao usuário final. As estruturas tradicionais, embora valiosas, geralmente não atendem às necessidades digitais dos usuários e empresa. Elas também não dispõem de métodos para avaliar a qualidade do serviço.
Nascida da própria necessidade do Google de ter sistemas robustos e escaláveis, a engenharia de confiabilidade de sites (SRE) oferece princípios valiosos que podem ser utilizados para aprimorar suas práticas de ITSM.
Um princípio fundamental em que o SRE e ITSM se cruzam é o conceito de SLAs. Embora os SLAs façam parte do ITSM há muito tempo, o SRE introduz os objetivos de nível de serviço (SLOs) e indicadores de nível de serviço (SLIs).
Esse trio — SLA, SLO e SLI — prioriza as metas compartilhadas entre o service desk de TI e funcionários, concentra-se na comunicação clara e melhora a experiência do usuário. Dessa forma, o ITSM pode realmente oferecer a experiência do usuário que promete, tendo uma abordagem mais granular e centrada no usuário para mensurar o desempenho do serviço.
Vamos nos aprofundar em como os princípios de SLA, SLO e SLI do SRE estão reformulando fundamentalmente a abordagem das organizações de TI em relação à prestação de serviços.
SLA
O acordo de nível de serviço refere-se a um acordo formal entre o service desk de TI e funcionários. Esse acordo essencial define as regras básicas para os serviços esperados, atribuindo responsabilidades às equipes do service desk, incluindo protocolos detalhados de escalação se os níveis de serviço acordados não forem atendidos.
Por exemplo, o SLA de um sistema de ERP baseado em nuvem pode especificar uma garantia mensal de tempo de atividade ou definir a rapidez com que os serviços devem ser restaurados, ou seja, o tempo de resolução de incidentes de tempo de inatividade.
O SLA também descreve as ações de escalação proativas ou reativas para exceder o threshold de tempo de inatividade. As ações de escalação podem incluir a notificação das respectivas partes interessadas sobre o tempo de inatividade, participação de especialistas no assunto, aumento da prioridade dos tickets de incidentes ou até mesmo a execução de todas essas escalações de uma só vez.
Dessa forma, o SLA ajuda a garantir a transparência e responsabilidade dos service desks de TI e funcionários durante todo o processo de prestação de serviços.
Não deixe de conferir o nosso artigo anterior sobre como os SLAs funcionam em conjunto com os OLAs para definir as expectativas corretas de prestação de serviços de TI.
SLO
Os objetivos de nível de serviço, um componente do SLA, são metas cuidadosamente projetadas, concretas e numéricas para as equipes do service desk de TI. Eles definem o nível de desempenho desejado para um serviço específico, traduzindo as promessas do SLA em metas acionáveis.
Os SLOs são essenciais para demarcar os níveis de thresholds para serviços bons e ruins. As metas de SLO são expressas em várias métricas, como porcentagens de tempo de atividade, tempos médios de resolução de tickets ou índices de satisfação dos funcionários.
Continuando com o exemplo do sistema de ERP, no SLA que especifica a garantia de tempo de atividade, a empresa pode definir um SLO para o tempo de atividade como 99,95% e para o prazo de resolução como 20 minutos para todos os tickets de incidentes relacionados ao tempo de inatividade.
Na sua maioria, os SLOs são definidos internamente para estabelecer metas claras e mensuráveis, ajudando assim a equipe de TI a manter o foco nas suas metas. Esses SLOs internos são diferentes dos mencionados no SLA, pois são mais ambiciosos. Por exemplo, a empresa pode definir um SLO interno para um tempo de atividade de 99,99% e tempo de resolução de 12 minutos, excedendo o tempo de atividade garantido de 99,95% e o prazo de resolução de 20 minutos no SLA para criar uma “reserva” para circunstâncias imprevistas. Essa “reserva” entre o nível ambicioso (SLO interno) e nível prometido (conforme mencionado no SLA) permite que haja espaço para a ocorrência de pequenos erros e é definida como o orçamento de erros.
Essa abordagem permite que as equipes priorizem a resolução de problemas antes que elas se tornem problemas graves, como uma violação de SLA.
SLI
Os indicadores de nível de serviço são as métricas mensuráveis utilizadas para rastrear o progresso em relação aos SLOs. Em outras palavras, eles medem a conformidade do serviço da equipe de TI com os SLOs predefinidos.
Os SLIs geralmente são medidos em porcentagem. Eles podem variar de 0% (nada está funcionando) a 100% (tudo está perfeito).
No nosso exemplo de sistema de ERP, em que o SLA indicava uma porcentagem de tempo de atividade com um SLO definido como 99,5% de tempo de atividade, o SLI seria a medida real do tempo de atividade, talvez 99,66%. O SLI para o prazo de resolução seria o tempo real de resolução de tickets individuais medido em relação à meta de SLO desejada. Por exemplo, o SLI pode ser de 17 minutos, o que é menos do que a meta de 20 minutos do SLO.
Nem todo SLO deve ser medido como um SLI. É fundamental avaliar as métricas que afetam diretamente os funcionários, e somente elas devem ser monitoradas. Por exemplo, em um sistema de ERP, rastrear o número de logins de usuários ou duração média da atividade do usuário não fornece muitas informações sobre a eficácia do seu serviço.
Em vez disso, os SLIs poderiam ser a medição da disponibilidade do sistema durante o horário comercial, tempos de resposta e resolução ou número de tickets internos com SLO violado. Ao monitorar essas métricas, as equipes de service desk podem identificar e resolver os possíveis problemas logo no início, evitando que eles se transformem em grandes problemas e escalações.
O ciclo de feedback
Após entender completamente o que são SLA, SLO e SLI, você pode deduzir que eles funcionam em um ciclo de feedback.
- O SLA define as expectativas para o funcionário e os SLOs são as metas individuais a serem atingidas dentro do SLA. Para analisar se a equipe está atingindo os SLOs, os SLIs são mensurados.
- Ao analisar os dados do SLI, a equipe pode identificar áreas de melhoria e ajustar a abordagem para atingir os SLOs. Se a equipe falhar constantemente nos SLOs e tiver classificações baixas de SLI, talvez seja hora de rever o SLA e ajustar as expectativas.
Comparação do SLA, SLO e SLI
| Características | SLA | SLO | SLI |
|---|---|---|---|
| Definição | Acordo formal entre o service desk de TI e funcionários que define o nível de serviço esperado. | Meta mensurável específica que define o nível de desempenho desejado para um serviço mencionado no SLA | Métricas utilizadas para medir o desempenho real do service desk. |
| Escopo | Para estabelecer expectativas para os funcionários. | Definir as metas de desempenho para que as equipes de serviços de TI cumpram o SLA. | Para medir e obter insights sobre o desempenho real do service desk. |
| Grau de granularidade | Amplo e abrangendo vários SLOs. | Específico e focado em métricas de desempenho individual. | Detalhado e muitas vezes numeroso, fornecendo dados granulares. |
| Flexibilidade | Mais rígido com escalações proativas e reativas. | Os SLOs externos, que fazem parte do SLA, são rígidos. Os SLOs internos são flexíveis, pois os objetivos podem mudar com base no potencial das equipes de service desk | - |
Resumindo
- SLA é o acordo geral entre o service desk de TI e funcionários.
- SLOs são as metas internas definidas para cumprir o SLA.
- SLIs são as medições reais das metas mencionadas no SLA.
Ao trabalhar em conjunto, esse trio capacita as equipes do service desk de TI a definir expectativas claras para seus funcionários, identificar problemas potenciais antes que eles afetem a prestação de serviços e manter os serviços funcionando muito bem.
Sobre a autora










