DEV Community

Cover image for O incidente de $5 milhões do Datadog
Jackie Nascimento
Jackie Nascimento

Posted on

O incidente de $5 milhões do Datadog

A Datadog é uma plataforma de monitoramento e segurança essencial para aplicações em nuvem. Com uma configuração adequada, somos capazes de obter um rastreamento abrangente, métricas e registros de aplicações, infraestrutura e serviços de terceiros. Essas informações são fundamentais para garantir a estabilidade dos serviços, evitar períodos de inatividade e proporcionar uma excelente experiência ao usuário.

No entanto, mesmo operando em três provedores de nuvem (AWS, Azure e Google Cloud) em cinco regiões, a plataforma enfrentou um período de inoperância de 14 horas. Infelizmente, a comunicação com os clientes durante o incidente deixou a desejar, tudo isso resultando em um custo estimado de aproximadamente 5 milhões de dólares - praticamente equivalente à receita de um dia da empresa.

A interrupção do serviço foi causada por uma atualização do sistema operacional. O Ubuntu Linux realiza atualizações regulares de suas distribuições para a versão estável mais recente, e o problema ocorreu durante a atualização para a versão 22.04 do sistema operacional, que incluía uma atualização de segurança do processo systemd.

O problema não foi a atualização em si, afinal, ele envolvia mudanças no systemd:

ATUALIZAÇÃO DE SEGURANÇA: vulnerabilidade de estouro de buffer em format_timespan()

  • debian/patches/CVE-2022-3821.patch: time-util: correção de estouro de buffer
  • CVE-2022-3821

ATUALIZAÇÃO DE SEGURANÇA: vulnerabilidade de vazamento de informações em systemd-coredump

  • debian/patches/CVE-2022-4415.patch: não permitir que o usuário acesse despejos de núcleo com uid/gid/capacidades alterados
  • CVE-2022-4415

Embora as atualizações em si fossem necessárias e visavam aumentar a segurança das VMs, a reinicialização do processo systemd-networkd inadvertidamente apagou as rotas de rede, resultando na desconexão dos nós e na indisponibilidade dos serviços. Essa reação em cascata também afetou os nós responsáveis pelo controle das redes.

Convido a leitura que deixei como fontes, nela esta uma análise mais profunda do ocorrido (do site Pragmatic Engineer) e o postmortem da Datadog. O que aprendemos dessa inoperância é importância de uma cuidadosa implementação de atualizações e de uma comunicação clara e eficiente com os usuários para minimizar os impactos negativos e proteger a reputação e os resultados financeiros da empresa.

Leia mais:
🔗 Análise do incidente no site Pragmatic Engineer: https://newsletter.pragmaticengineer.com/p/inside-the-datadog-outage
🔗 Postmortem da Datadog: https://www.datadoghq.com/blog/2023-03-08-multiregion-infrastructure-connectivity-issue/

Top comments (0)