image.png!

Primeiramente, você sabe o que é um SRE ? Já ouviu falar ? Atualmente está bem na “Hype” ouvir sobre DEVOPS e SRE na área de TI, mas hoje vamos introduzir um pouco sobre o SRE e um dos pilares que essa profissional trabalha que é a Observabilidade.

SRE, é a sigla em inglês para Site Reliability Engineering ou “Engenharia de Confiabilidade de Sites”, é uma abordagem da engenharia de software às operações de TI. A abordagem SRE, é que tarefas historicamente realizadas de maneira manual, comecem a ser feitas usando softwares ou de forma automatizada e garantir a confiabilidade dos sistemas.

O conceito de engenharia de confiabilidade de sites foi criado pela equipe de engenharia do Google e é atribuído a Ben Treynor Sloss. 

A abordagem de SRE ajuda as equipes a encontrar um equilíbrio entre lançar novas funcionalidades e assegurar que elas sejam confiáveis para os usuários.

Para mensurar isso, o SRE conta com algumas siglas que se você está estudando para virar um DEVOPS/SRE você já deve ter visto alguma vez, que são os SLI’s, SLO’s, SLA’s .

Vamos ver o que significam essas Siglas.

SLI (Service Level Indicator)

São as métricas, o que você efetivamente mede para decidir se está dentro ou fora do SLO definido.

SLO (Service Level Objective)

É o contrato interno, entre os times para que se alcance o SLA. Normalmente ele é um objetivo mais estreito de se alcançar, justamente para que o SLA sempre seja alcançado.

SLA (Service Level Agreement)

É o nível contratual firmado com o cliente sobre o serviço oferecido. Importante ressaltar que o SLA nunca pode ser 100%, pois nós sabemos que existe sim a possibilidade qualquer aplicação no mundo cair. Mas o objetivo é justamente trabalhar bem próximo dos 100%, trazendo confiabilidade para o serviço.

Exemplificando…

Vamos supor que o SLI seja a LATÊNCIA de uma API, o SLO seja de ter 97% das requisições abaixo de 1s nos últimos 30 dias, e o SLA firmado com o cliente é de responder em até 1s, 93% das requisições.

Como eu obtenho essas métricas ?

Esses termos são essenciais para determinar se seu sistema é confiável, disponível e útil para seus usuários. Você deve ser capaz de medir essas métricas e vinculá-las aos seus objetivos de negócios - com o objetivo final de fornecer valor a seus clientes.

Mas como podemos obter essas métricas ? Existem ferramentas de APM no mercado que nos auxiliam a controlar esses indicadores aumentando a confiabilidade.

Por exemplo, temos o AppDynamics, Datadog, Dynatrace, NewRelic, entre outros.

Trabalhando com essas ferramentas, conseguimos coletar várias métricas e informações sobre nossa aplicação e criar monitores e alertas para nos ajudar a alcançar os resultados traçados, evitando surpresas desagradáveis.

Conclusão

Basicamente, essas são as bases da Observabilidade que um SRE utiliza para trazer confiabilidade ao sistema. Creio que se você não sabia quem era esse profissional ou o que ele fazia, de modo bem simples nós conseguimos explanar sobre uma das principais responsabilidades do SRE, as métricas utilizadas para isso e alguns dos softwares que estão em alta no mercado atualmente para auxiliar nas análises.