Forem

Cover image for O incidente de $5 milhões do Datadog
Jackie Nascimento
Jackie Nascimento

Posted on

1

O incidente de $5 milhões do Datadog

A Datadog é uma plataforma de monitoramento e segurança essencial para aplicações em nuvem. Com uma configuração adequada, somos capazes de obter um rastreamento abrangente, métricas e registros de aplicações, infraestrutura e serviços de terceiros. Essas informações são fundamentais para garantir a estabilidade dos serviços, evitar períodos de inatividade e proporcionar uma excelente experiência ao usuário.

No entanto, mesmo operando em três provedores de nuvem (AWS, Azure e Google Cloud) em cinco regiões, a plataforma enfrentou um período de inoperância de 14 horas. Infelizmente, a comunicação com os clientes durante o incidente deixou a desejar, tudo isso resultando em um custo estimado de aproximadamente 5 milhões de dólares - praticamente equivalente à receita de um dia da empresa.

A interrupção do serviço foi causada por uma atualização do sistema operacional. O Ubuntu Linux realiza atualizações regulares de suas distribuições para a versão estável mais recente, e o problema ocorreu durante a atualização para a versão 22.04 do sistema operacional, que incluía uma atualização de segurança do processo systemd.

O problema não foi a atualização em si, afinal, ele envolvia mudanças no systemd:

ATUALIZAÇÃO DE SEGURANÇA: vulnerabilidade de estouro de buffer em format_timespan()

  • debian/patches/CVE-2022-3821.patch: time-util: correção de estouro de buffer
  • CVE-2022-3821

ATUALIZAÇÃO DE SEGURANÇA: vulnerabilidade de vazamento de informações em systemd-coredump

  • debian/patches/CVE-2022-4415.patch: não permitir que o usuário acesse despejos de núcleo com uid/gid/capacidades alterados
  • CVE-2022-4415

Embora as atualizações em si fossem necessárias e visavam aumentar a segurança das VMs, a reinicialização do processo systemd-networkd inadvertidamente apagou as rotas de rede, resultando na desconexão dos nós e na indisponibilidade dos serviços. Essa reação em cascata também afetou os nós responsáveis pelo controle das redes.

Convido a leitura que deixei como fontes, nela esta uma análise mais profunda do ocorrido (do site Pragmatic Engineer) e o postmortem da Datadog. O que aprendemos dessa inoperância é importância de uma cuidadosa implementação de atualizações e de uma comunicação clara e eficiente com os usuários para minimizar os impactos negativos e proteger a reputação e os resultados financeiros da empresa.

Leia mais:
🔗 Análise do incidente no site Pragmatic Engineer: https://newsletter.pragmaticengineer.com/p/inside-the-datadog-outage
🔗 Postmortem da Datadog: https://www.datadoghq.com/blog/2023-03-08-multiregion-infrastructure-connectivity-issue/

Image of Timescale

🚀 pgai Vectorizer: SQLAlchemy and LiteLLM Make Vector Search Simple

We built pgai Vectorizer to simplify embedding management for AI applications—without needing a separate database or complex infrastructure. Since launch, developers have created over 3,000 vectorizers on Timescale Cloud, with many more self-hosted.

Read full post →

Top comments (0)

Billboard image

The Next Generation Developer Platform

Coherence is the first Platform-as-a-Service you can control. Unlike "black-box" platforms that are opinionated about the infra you can deploy, Coherence is powered by CNC, the open-source IaC framework, which offers limitless customization.

Learn more

👋 Kindness is contagious

Engage with a sea of insights in this enlightening article, highly esteemed within the encouraging DEV Community. Programmers of every skill level are invited to participate and enrich our shared knowledge.

A simple "thank you" can uplift someone's spirits. Express your appreciation in the comments section!

On DEV, sharing knowledge smooths our journey and strengthens our community bonds. Found this useful? A brief thank you to the author can mean a lot.

Okay