Monitoring na prática: olhando além do “o sistema está no ar”

#devops #monitoring #systemdesign

Quando falamos de monitoramento, não basta saber se o site responde. É preciso entender como ele responde, para quem, em que condições e com que riscos.

Vamos quebrar isso em camadas, com exemplos de um marketplace em produção:

🔍 Health Monitoring

Checar se os serviços estão vivos.
➡Exemplo prático: rodar health checks automáticos a cada 30 segundos no serviço de pagamentos. Se ele parar de responder, o load balancer remove a instância para não impactar novos clientes.

🌐 Availability Monitoring

É diferente de “estar no ar”: significa estar realmente acessível para o usuário.
➡ Exemplo prático: o checkout está online, mas 20% dos usuários do Nordeste não conseguem acessá-lo por problemas de rota em um provedor de internet local. Um monitor de disponibilidade global detecta a falha de rede e aciona fallback para outro provedor de CDN.

⚡ Performance Monitoring

Não é só uptime: é tempo de resposta e consumo de recursos.
➡ Exemplo prático: durante a Black Friday, o endpoint /search começa a responder em 4 segundos em vez de 500ms. O time recebe alerta no DataDog, analisa traces no OpenTelemetry e descobre que a query no banco perdeu o índice após um deploy.

🔒 Security Monitoring

Monitorar não só ataques externos, mas também anomalias internas.
➡ Exemplo prático: um padrão de chamadas para /login com milhares de tentativas por minuto indica um ataque de credential stuffing. O monitor de segurança dispara um alerta e aciona automaticamente bloqueio via WAF e reCAPTCHA.

📊 Usage Monitoring

Mede comportamento real do usuário e impacto no negócio.
➡ Exemplo prático: métricas mostram que 60% dos usuários abandonam o carrinho ao adicionar mais de 5 itens. Com isso, o time percebe que a UX da tela de resumo está confusa e ajusta o fluxo.

🛠️ Instrumentation

Colocar métricas e logs no código de forma planejada.
➡ Exemplo prático: o serviço de pedidos emite métricas para cada evento: pedido_criado, pedido_pago, pedido_cancelado. Isso permite construir funis no dashboard e entender onde os usuários travam.

🚨 Visualization & Alerts

É a forma como o time consome os dados de monitoramento.
➡ Exemplo prático: dashboards no Grafana mostram latência, throughput e taxa de erros em tempo real. Alertas no Slack/Teams são configurados com thresholds dinâmicos (ex.: erro > 2% por 5 minutos) para evitar falsos positivos.

Conclusão

Monitoramento é como cuidar da saúde de uma pessoa: não basta medir a pressão, é preciso olhar coração, respiração, comportamento e sinais de alerta.
No mundo dos sistemas, é o que garante confiança, escalabilidade e segurança.

👉 E aí: no seu time vocês já têm monitoramento distribuído (com traces, métricas e logs) ou ainda dependem de “alguém avisar que deu erro”?

DEV Community