Nesta postagem, abordaremos alguns termos relacionados a conceitos cruciais na área de administração de serviços e sistemas, especialmente no que se refere à análise de desempenho e observabilidade.
Essas siglas ajudam a avaliar e melhorar a confiabilidade, disponibilidade e eficiência de sistemas.
As equipes podem estabelecer metas e otimizar processos de reparo e manutenção garantindo serviços de alta qualidade.
SLA, SLO e SLI
Conforme mencionado no livro escrito por membros do time SRE do Google Site Reliability Engineering, SLI, SLO e SLA são indicadores de nível de serviço, objetivo e acordo.
Essas características definem quais métricas são relevantes, quais valores desejamos que essas métricas contenham e como as equipes devem agir caso o serviço não atenda às expectativas dos clientes.
SLA: Acordos de Nível de Serviço
É um acordo entre o provedor com clientes, sejam clientes externos ou outras equipes dentro de sua organização. O SLA é um acordo que diz quanto tempo o serviço estará disponível para os clientes e quais são as consequências se o acordo for quebrado. As consequências são facilmente percebidas, quando envolvem penalidades financeiras.
SLO: Objetivos de Nível de Serviço
É um acordo para o desempenho de um serviço, baseado no SLI. Por exemplo, 99% das requisições HTTP serão concluídas em menos de 50 ms. O SLO define o que o cliente espera do sistema e quais metas devem ser atingidas pelas equipes de engenharia.
SLI: Indicadores de Nível de Serviço
SLIs são métricas usadas na avaliação de SLOs, como latência, taxa de transferência ou taxa de erro que indicam o desempenho do sistema.
Exemplo
Através do SLI mediremos a disponibilidade de um site, queremos que o site esteja disponível 99,8% do tempo.
Definiremos um SLO de 99,8%, o que significa que nosso objetivo é manter o site disponível 99,8% do tempo.
No SLA, documentamos o acordo entre o provedor do sistema e o cliente.
SLI é a métrica de disponibilidade, o SLO é a meta que queremos alcançar (99,8% de disponibilidade), e o SLA é o acordo que formaliza esse compromisso com os clientes do site.
MTTA, MTTR, MTBF e MTTF
O custo de um período de indisponibilidade (downtime) para um sistema pode variar significativamente com base no tipo de negócio, no tamanho da empresa, no setor, entre outros.
Durante um período de inatividade teremos custos associados como, perda de receita, perda de cliente, custo de recuperação, perda de credibilidade da marca, etc. O MTTA, MTTR, MTBF e MTTF são métricas importantes para gerenciar incidente e confiabilidade, para minimizar o impacto do downtime e melhorar a eficiência das operações.
MTTA (Mean Time To Acknowledge) Tempo Médio para Reconhecimento
O MTTA é o tempo médio que levamos para reconhecer uma falha. Isso inclui desde quando a falha ocorreu até o momento em que é ela foi reconhecida e registrada.
É crucial identificar falhas de forma rápida e reduzir o tempo total de inatividade do sistema. Dessa forma, podemos resolver o problema quanto antes.
MTTR (Mean Time To Repair) Tempo Médio para Reparo
O MTTR indica o tempo médio que leva para reparar o sistema ou resolver um problema após o reconhecimento.
Mostra a eficiência e velocidade com que a equipe resolve problemas e restaurando os serviços para os usuários.
MTBF (Mean Time Between Failures) Tempo Médio entre Falhas
É o tempo médio entre falhas de um sistema. Para calcular o MTBF dividimos o tempo total de operação pelo número de falhas ocorridas durante esse período.
Essa métrica é utilizada para entender a confiabilidade de um sistema e permite planejar manutenções preventivas.
MTTF (Mean Time To Failure) Tempo Médio sem Falhas
Mostra quanto tempo um sistema leva para falhar. O MTTF auxilia na compreensão do tempo que o sistema leva para apresentar falhas.
Conclusão
A utilização correta de SLIs, SLOs, SLEs, MTTA, MTTR, MTBF e MTTF permite um gerenciamento eficaz dos sistemas, garantindo que os serviços atendam às necessidades e expectativas dos usuários, aumentando a confiabilidade e a disponibilidade.
Top comments (0)