<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:dc="http://purl.org/dc/elements/1.1/">
  <channel>
    <title>DEV Community: Diogo Maske</title>
    <description>The latest articles on DEV Community by Diogo Maske (@diogomsk).</description>
    <link>https://dev.to/diogomsk</link>
    <image>
      <url>https://media2.dev.to/dynamic/image/width=90,height=90,fit=cover,gravity=auto,format=auto/https:%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Fuser%2Fprofile_image%2F2512900%2F10f1af25-6db5-45d0-8ccc-15014d44e8e2.jpeg</url>
      <title>DEV Community: Diogo Maske</title>
      <link>https://dev.to/diogomsk</link>
    </image>
    <atom:link rel="self" type="application/rss+xml" href="https://dev.to/feed/diogomsk"/>
    <language>en</language>
    <item>
      <title>Monitorando AWS com Datadog: o que aprendi partindo do zero</title>
      <dc:creator>Diogo Maske</dc:creator>
      <pubDate>Thu, 16 Apr 2026 14:07:47 +0000</pubDate>
      <link>https://dev.to/aws-builders/monitorando-aws-com-datadog-o-que-aprendi-partindo-do-zero-3n24</link>
      <guid>https://dev.to/aws-builders/monitorando-aws-com-datadog-o-que-aprendi-partindo-do-zero-3n24</guid>
      <description>&lt;p&gt;🇧🇷&lt;em&gt;O artigo está em PT-BR, fique à vontade para traduzir.&lt;/em&gt;&lt;br&gt;
🇺🇲&lt;em&gt;The article is in PT-BR, feel free to translate it.&lt;/em&gt;&lt;/p&gt;

&lt;p&gt;☁️☁️☁️&lt;/p&gt;

&lt;p&gt;Acabei de concluir o laboratório &lt;strong&gt;Introduction to Monitoring AWS with Datadog&lt;/strong&gt; e quero compartilhar o que aprendi, porque foi bem mais interessante do que eu esperava. E também porque tive algumas dúvidas que acho que muita gente iniciante também teria.&lt;/p&gt;

&lt;p&gt;Antes de começar, vou ser honesto: eu sei o que a AWS soluciona e entrega e tinha uma noção vaga do que era o Datadog &lt;em&gt;("aquela ferramenta de monitoramento cara")&lt;/em&gt;. Mas não entendia como os dois se conectavam na prática, nem por que isso seria importante no dia a dia de um time de DevOps.&lt;/p&gt;

&lt;p&gt;O curso usa um app fictício chamado &lt;strong&gt;TechStories&lt;/strong&gt;, &lt;em&gt;uma plataforma de notícias e mídia social hospedada inteiramente na AWS&lt;/em&gt;, como base para os exercícios. Isso ajudou muito, porque deu um contexto real pra tudo.&lt;/p&gt;




&lt;h2&gt;
  
  
  O problema que o curso &lt;strong&gt;resolve&lt;/strong&gt;
&lt;/h2&gt;

&lt;p&gt;Imagine que seu time mantém uma aplicação rodando em EC2, com containers no ECS Fargate, banco de dados no RDS, funções Lambda e tabelas no DynamoDB. Como você sabe se está tudo funcionando bem? Você fica alternando entre console da AWS, CloudWatch, logs espalhados, é muito caótico.&lt;/p&gt;

&lt;p&gt;O Datadog entra como uma &lt;em&gt;camada única de observabilidade&lt;/em&gt;: você coleta métricas, logs e traces de tudo isso em um só lugar. O lab simulou exatamente esse cenário.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fsf8xcmafb95yv64826pi.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fsf8xcmafb95yv64826pi.png" alt="Architecture" width="800" height="471"&gt;&lt;/a&gt;&lt;/p&gt;




&lt;h2&gt;
  
  
  Como a &lt;strong&gt;integração&lt;/strong&gt; AWS funciona por baixo dos panos
&lt;/h2&gt;

&lt;p&gt;A primeira coisa que o curso explica é que existem basicamente dois jeitos de coletar dados da AWS no Datadog:&lt;/p&gt;

&lt;ol&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;Via polling do CloudWatch&lt;/strong&gt; — o Datadog consulta a API da AWS de tempos em tempos pra pegar as métricas. É a forma mais simples de configurar, mas tem um delay de alguns minutos.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;Via Metric Streams&lt;/strong&gt; — você configura a AWS pra empurrar as métricas pro Datadog em tempo quase real. Latência bem menor, ideal pra alertas críticos.&lt;/p&gt;&lt;/li&gt;
&lt;/ol&gt;

&lt;p&gt;Na prática, pra começar você instala a integração AWS no Datadog, cria uma role IAM na sua conta com as permissões corretas, e aponta o Datadog pra essa role. Depois disso ele já começa a descobrir os recursos automaticamente.&lt;/p&gt;




&lt;h2&gt;
  
  
  O &lt;strong&gt;Datadog Forwarder&lt;/strong&gt; e o negócio dos logs
&lt;/h2&gt;

&lt;p&gt;Uma das partes que mais me fez &lt;em&gt;&lt;strong&gt;parar e reler&lt;/strong&gt;&lt;/em&gt; foi o fluxo de logs. Na AWS, os logs dos serviços gerenciados (Lambda, RDS, etc.) vão pro CloudWatch Logs. Mas o Datadog não lê o CloudWatch Logs diretamente, &lt;em&gt;você precisa de um intermediário&lt;/em&gt;.&lt;/p&gt;

&lt;p&gt;Esse intermediário é o &lt;strong&gt;Datadog Forwarder&lt;/strong&gt;: uma função Lambda que você instala via CloudFormation e que fica "ouvindo" os CloudWatch Log Groups. Quando chega um log novo, ela encaminha pro Datadog. É bonito quando está pronto, mas exige configurar subscriptions pra cada log group que você quer monitorar.&lt;/p&gt;

&lt;p&gt;No lab, depois de configurar isso, consegui ver os logs da Lambda &lt;code&gt;keyword-insights-processor&lt;/code&gt; direto no &lt;strong&gt;Log Explorer do Datadog&lt;/strong&gt;, com todos os campos estruturados, tags automáticas de ambiente, serviço, ARN da função, etc. Bem diferente de ficar vasculhando no CloudWatch.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Framnc382tpilx0705ndi.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Framnc382tpilx0705ndi.png" alt="keyword-insights-processor" width="800" height="471"&gt;&lt;/a&gt;&lt;/p&gt;




&lt;h2&gt;
  
  
  &lt;strong&gt;Datadog Agent:&lt;/strong&gt; quando os serviços gerenciados não são suficientes
&lt;/h2&gt;

&lt;p&gt;Pra EC2 e containers, o Datadog tem o próprio agente, um processo que roda dentro da máquina/container e coleta métricas muito mais granulares do que o CloudWatch oferece: memória por processo, latência de disco, métricas customizadas, traces...&lt;/p&gt;

&lt;p&gt;No caso do ECS Fargate, você sobe o Agent como um sidecar container na mesma task definition do seu serviço. Quando vi isso me pareceu muito trabalhoso, mas no lab eles mostram que dá pra fazer via CloudFormation, e as tags ficam todas consistentes por causa de um padrão de &lt;code&gt;key:value&lt;/code&gt; definido nos recursos:&lt;/p&gt;

&lt;p&gt;&lt;code&gt;App:TechStories / Env:monitoring-aws-lab / Service:&amp;lt;nome-do-serviço&amp;gt;&lt;/code&gt;&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F4jqhs1ufod41olx3hj0m.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F4jqhs1ufod41olx3hj0m.png" alt="ECS Fargate Services - Tags" width="800" height="471"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;Isso é fundamental.&lt;/strong&gt; Sem tags consistentes, você não consegue filtrar nada no Datadog depois.&lt;/p&gt;




&lt;h2&gt;
  
  
  O que dá pra ver depois que tudo está integrado
&lt;/h2&gt;

&lt;p&gt;O Resource Catalog mostrou tudo que foi descoberto na conta: 343 databases, 70 containers, 22 serverless functions, 1 host EC2... tudo categorizado, com região, ambiente e serviço associado. Dá pra clicar em qualquer recurso e ver as métricas diretamente.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Ffbf57w8t1z61b8pca5lz.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Ffbf57w8t1z61b8pca5lz.png" alt="Resource Catalog" width="800" height="471"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;Na seção de Metrics, busquei por &lt;code&gt;aws.dynamodb&lt;/code&gt; e apareceram 22 métricas diferentes — capacidade de leitura/escrita, número de itens, tamanho das tabelas. Coisas que antes eu teria que montar dashboards manualmente no CloudWatch.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fy5jbp6kvtxrr6mlgtvtl.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fy5jbp6kvtxrr6mlgtvtl.png" alt="Metrics" width="800" height="471"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;O &lt;strong&gt;AWS Overview Dashboard&lt;/strong&gt;, que vem pronto como OOTB (out-of-the-box) no Datadog, já trouxe um panorama geral: 1 instância EC2 rodando, 4 monitores de status todos OK, 491 invocações Lambda na última hora, taxa de erro 0%, duração média de 988ms. Também dá pra ver traces das requisições HTTP diretamente no host EC2: cada request com host, serviço, recurso e latência.&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F3oaqp4r9hqeq4pxre7pw.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F3oaqp4r9hqeq4pxre7pw.png" alt="AWS Overview Dashboard" width="800" height="471"&gt;&lt;/a&gt;&lt;/p&gt;




&lt;h2&gt;
  
  
  O que ficou de lição 🧠
&lt;/h2&gt;

&lt;p&gt;Mais do que as ferramentas em si, o lab reforçou uma coisa: observabilidade não é sobre acumular dados. É sobre ter os dados certos, com contexto suficiente &lt;strong&gt;(tags!)&lt;/strong&gt; pra você conseguir responder perguntas quando algo dá errado.&lt;/p&gt;

&lt;p&gt;A integração &lt;strong&gt;AWS + Datadog&lt;/strong&gt;, quando bem configurada, te dá isso: &lt;em&gt;um lugar só pra métricas, logs e traces, com correlação entre eles.&lt;/em&gt; Você vê que o tempo de resposta subiu, clica no trace, chega no log do Lambda, entende o que aconteceu.&lt;/p&gt;

&lt;p&gt;Ainda tenho muito a aprender (APM, alertas, SLOs...), mas foi uma ótima base. Recomendo o &lt;em&gt;Learning Center do Datadog&lt;/em&gt; pra quem quiser começar, os labs são práticos e o ambiente já vem configurado, então você foca no aprendizado em vez de ficar lutando com IAM.&lt;/p&gt;

&lt;p&gt;Se quiser trocar ideia sobre isso ou acompanhar minha jornada, me encontra aqui no &lt;a href="https://www.linkedin.com/in/diogomaske/" rel="noopener noreferrer"&gt;LinkedIn&lt;/a&gt; ✌️&lt;/p&gt;

</description>
      <category>aws</category>
      <category>datadog</category>
      <category>productivity</category>
      <category>cloud</category>
    </item>
  </channel>
</rss>
