DEV Community

Cover image for O incidente de $5 milhões do Datadog
Jackie Nascimento
Jackie Nascimento

Posted on

1

O incidente de $5 milhões do Datadog

A Datadog é uma plataforma de monitoramento e segurança essencial para aplicações em nuvem. Com uma configuração adequada, somos capazes de obter um rastreamento abrangente, métricas e registros de aplicações, infraestrutura e serviços de terceiros. Essas informações são fundamentais para garantir a estabilidade dos serviços, evitar períodos de inatividade e proporcionar uma excelente experiência ao usuário.

No entanto, mesmo operando em três provedores de nuvem (AWS, Azure e Google Cloud) em cinco regiões, a plataforma enfrentou um período de inoperância de 14 horas. Infelizmente, a comunicação com os clientes durante o incidente deixou a desejar, tudo isso resultando em um custo estimado de aproximadamente 5 milhões de dólares - praticamente equivalente à receita de um dia da empresa.

A interrupção do serviço foi causada por uma atualização do sistema operacional. O Ubuntu Linux realiza atualizações regulares de suas distribuições para a versão estável mais recente, e o problema ocorreu durante a atualização para a versão 22.04 do sistema operacional, que incluía uma atualização de segurança do processo systemd.

O problema não foi a atualização em si, afinal, ele envolvia mudanças no systemd:

ATUALIZAÇÃO DE SEGURANÇA: vulnerabilidade de estouro de buffer em format_timespan()

  • debian/patches/CVE-2022-3821.patch: time-util: correção de estouro de buffer
  • CVE-2022-3821

ATUALIZAÇÃO DE SEGURANÇA: vulnerabilidade de vazamento de informações em systemd-coredump

  • debian/patches/CVE-2022-4415.patch: não permitir que o usuário acesse despejos de núcleo com uid/gid/capacidades alterados
  • CVE-2022-4415

Embora as atualizações em si fossem necessárias e visavam aumentar a segurança das VMs, a reinicialização do processo systemd-networkd inadvertidamente apagou as rotas de rede, resultando na desconexão dos nós e na indisponibilidade dos serviços. Essa reação em cascata também afetou os nós responsáveis pelo controle das redes.

Convido a leitura que deixei como fontes, nela esta uma análise mais profunda do ocorrido (do site Pragmatic Engineer) e o postmortem da Datadog. O que aprendemos dessa inoperância é importância de uma cuidadosa implementação de atualizações e de uma comunicação clara e eficiente com os usuários para minimizar os impactos negativos e proteger a reputação e os resultados financeiros da empresa.

Leia mais:
🔗 Análise do incidente no site Pragmatic Engineer: https://newsletter.pragmaticengineer.com/p/inside-the-datadog-outage
🔗 Postmortem da Datadog: https://www.datadoghq.com/blog/2023-03-08-multiregion-infrastructure-connectivity-issue/

Image of Datadog

How to Diagram Your Cloud Architecture

Cloud architecture diagrams provide critical visibility into the resources in your environment and how they’re connected. In our latest eBook, AWS Solution Architects Jason Mimick and James Wenzel walk through best practices on how to build effective and professional diagrams.

Download the Free eBook

Top comments (0)

Billboard image

The Next Generation Developer Platform

Coherence is the first Platform-as-a-Service you can control. Unlike "black-box" platforms that are opinionated about the infra you can deploy, Coherence is powered by CNC, the open-source IaC framework, which offers limitless customization.

Learn more