DEV Community

Dannae Quidenao Adasme
Dannae Quidenao Adasme

Posted on

Implementación de alarmas CloudWatch para EC2

Este documento describe el proceso de implementación de alarmas de monitoreo en Amazon CloudWatch para instancias EC2 Windows Server, utilizando métricas recolectadas mediante CloudWatch Agent (CWAgent).

El objetivo es contar con alertas automáticas y accionables frente a problemas de:

  • Consumo elevado de memoria
  • Uso excesivo de CPU
  • Poco espacio en disco
  • Saturación de disco (I/O)

Servicios AWS utilizados

  • Amazon CloudWatch
    Recolección y visualización de métricas, alarmas y dashboards.

  • AWS Systems Manager
    Ejecución remota de comandos y automatización sin acceso directo a las instancias.

  • EC2 Windows Server
    Instancias administradas mediante SSM.


Prerrequisitos

Antes de iniciar la instalación, debe verificar que sus instancias cumplan con los siguientes requisitos:

Instancias administradas por SSM

El SSM Agent se encuentra instalado y en ejecución (viene por defecto en AMI Windows oficiales).

Las instancias aparecen como Managed instances en Systems Manager.

Rol IAM asociado a la EC2

La instancia deben tener un IAM Role que debe incluir, como mínimo, las siguientes políticas:

AmazonSSMManagedInstanceCore

CloudWatchAgentServerPolicy


Instalación del CloudWatch Agent

En el servicio AWS System Manager, se debe ir a la sección Run Command, allí se selecciona una nueva ejecución.

Documento SSM utilizado

Se ejecutó el documento administrado por AWS:
AWS-ConfigureAWSPackage

Los parametros del comando son los siguientes.

  1. En la lista de acción, se debe seleccionar "Install"
  2. En el tipo de instalación va la opción "Select Uninstall and reinstall"
  3. En la casilla "Nombre", indicar AmazonCloudWatchAgent
  4. En "Version" seleccionar "latest"

En destinos, seleccionremos las instancias a las cuales le instalaremos el agente, pueden seleccionarlas manualmente o utilizar agrupación por tag.

Y seleccionamos "Ejecute"

Una vez finalizado debería mostrar estado general correcto.

Podemos verificar la instalación del agente ingresando a una de las intancias, la ruta a verificar es la siguiente
Path: “C:\Program Files\Amazon\AmazonCloudWatchAgent


Configuración del agente

Se debe ingresar a las instancias a través de RDP (Escritorio Remoto). Descargando el archivo de escritorio remoto y obteniendo la contraseña desde AWS.

Se debe ejecutar amazon-cloudwatch-agent-config-wizard.exe ejecutando el siguiente fragmento de código. El programa ejecutable se basa en menús y ofrece opciones configurables en el símbolo del sistema.

Importante! Se debe ejecutar como administrador.

Allí comenzarán a desplegarse las opciones.

Se recomienda seleccionar las siguientes opciones.

C:\Program Files\Amazon\AmazonCloudWatchAgent>amazon-cloudwatch-agent-config-wizard.exe
================================================================
= Welcome to the Amazon CloudWatch Agent Configuration Manager =
=                                                              =
= CloudWatch Agent allows you to collect metrics and logs from =
= your host and send them to CloudWatch. Additional CloudWatch =
= charges may apply.                                           =
================================================================
On which OS are you planning to use the agent?
1. linux
2. windows
3. darwin
default choice: [2]:
2

Trying to fetch the default region based on ec2 metadata...
Are you using EC2 or On-Premises hosts?
1. EC2
2. On-Premises
default choice: [1]:
1

Do you want to turn on StatsD daemon?
1. yes
2. no
default choice: [1]:
2 

Do you have any existing CloudWatch Log Agent configuration file to import for migration?
1. yes
2. no
default choice: [2]:
2

Do you want to monitor any host metrics? e.g. CPU, memory, etc.
1. yes
2. no
default choice: [1]:
1

Do you want to monitor cpu metrics per core?
1. yes
2. no
default choice: [1]:
1

Do you want to add ec2 dimensions (ImageId, InstanceId, InstanceType, AutoScalingGroupName) into all of your metrics if the info is available?
1. yes
2. no
default choice: [1]:
1

Do you want to aggregate ec2 dimensions (InstanceId)?
1. yes
2. no
default choice: [1]:
1

Would you like to collect your metrics at high resolution (sub-minute resolution)? This enables sub-minute resolution for all metrics, but you can customize for specific metrics in the output json file.
1. 1s
2. 10s
3. 30s
4. 60s
default choice: [4]:
4

Which default metrics config do you want?
1. Basic
2. Standard
3. Advanced
4. None
default choice: [1]:
2

Current config as follows:
{
        "metrics": {
                "aggregation_dimensions": [
                        [
                                "InstanceId"
                        ]
                ],
                "append_dimensions": {
                        "AutoScalingGroupName": "${aws:AutoScalingGroupName}",
                        "ImageId": "${aws:ImageId}",
                        "InstanceId": "${aws:InstanceId}",
                        "InstanceType": "${aws:InstanceType}"
                },
                "metrics_collected": {
                        "LogicalDisk": {
                                "measurement": [
                                        "% Free Space"
                                ],
                                "metrics_collection_interval": 60,
                                "resources": [
                                        "*"
                                ]
                        },
                        "Memory": {
                                "measurement": [
                                        "% Committed Bytes In Use"
                                ],
                                "metrics_collection_interval": 60
                        },
                        "Paging File": {
                                "measurement": [
                                        "% Usage"
                                ],
                                "metrics_collection_interval": 60,
                                "resources": [
                                        "*"
                                ]
                        },
                        "PhysicalDisk": {
                                "measurement": [
                                        "% Disk Time"
                                ],
                                "metrics_collection_interval": 60,
                                "resources": [
                                        "*"
                                ]
                        },
                        "Processor": {
                                "measurement": [
                                        "% User Time",
                                        "% Idle Time",
                                        "% Interrupt Time"
                                ],
                                "metrics_collection_interval": 60,
                                "resources": [
                                        "*"
                                ]
                        }
                }
        }
}

Are you satisfied with the above config? Note: it can be manually customized after the wizard completes to add additional items.
1. yes
2. no
default choice: [1]:
1

Do you want to monitor any customized log files?
1. yes
2. no
default choice: [1]:
2     # if you are selecting 'yes', you can provide log file path accordingly.

Do you want to monitor any Windows event log?
1. yes
2. no
default choice: [1]:
2     # select '1' incase of enabling System Event Log for Windows

Saved config file to config.json successfully.
Current config as follows:
{
        "metrics": {
                "aggregation_dimensions": [
                        [
                                "InstanceId"
                        ]
                ],
                "append_dimensions": {
                        "AutoScalingGroupName": "${aws:AutoScalingGroupName}",
                        "ImageId": "${aws:ImageId}",
                        "InstanceId": "${aws:InstanceId}",
                        "InstanceType": "${aws:InstanceType}"
                },
                "metrics_collected": {
                        "LogicalDisk": {
                                "measurement": [
                                        "% Free Space"
                                ],
                                "metrics_collection_interval": 60,
                                "resources": [
                                        "*"
                                ]
                        },
                        "Memory": {
                                "measurement": [
                                        "% Committed Bytes In Use"
                                ],
                                "metrics_collection_interval": 60
                        },
                        "Paging File": {
                                "measurement": [
                                        "% Usage"
                                ],
                                "metrics_collection_interval": 60,
                                "resources": [
                                        "*"
                                ]
                        },
                        "PhysicalDisk": {
                                "measurement": [
                                        "% Disk Time"
                                ],
                                "metrics_collection_interval": 60,
                                "resources": [
                                        "*"
                                ]
                        },
                        "Processor": {
                                "measurement": [
                                        "% User Time",
                                        "% Idle Time",
                                        "% Interrupt Time"
                                ],
                                "metrics_collection_interval": 60,
                                "resources": [
                                        "*"
                                ]
                        }
                }
        }
}

Please check the above content of the config.
The config file is also located at config.json.
Edit it manually if needed.

Do you want to store the config in the SSM parameter store?
1. yes
2. no
default choice: [1]:
1   # Storing configuration in SSM is a good practice for centralized access

What parameter store name do you want to use to store your config? (Use 'AmazonCloudWatch-' prefix if you use our managed AWS policy)
default choice: [AmazonCloudWatch-windows]
AmazonCloudWatch-windows

Trying to fetch the default region based on ec2 metadata...
Which region do you want to store the config in the parameter store?
default choice: [us-east-1]
us-east-1

Which AWS credential should be used to send json config to parameter store?
1. YOUR ACCESS KEY ID(From SDK)
2. Other
default choice: [1]:
YOUR ACCESS KEY ID

Successfully put config to parameter store AmazonCloudWatch-windows.
Please press Enter to exit...

Program exits now.
Enter fullscreen mode Exit fullscreen mode

Verificamos las configuraciones abriendo el almacén de parámetros (AmazonCloudWatch-windows) desde SSM (AWS Systems Manager > Parameter Store).


Inicie el agente de CloudWatch mediante Systems Manager

En el servicio System Manager, seleccione Ejecutar comando .
En la lista de documentos de Comando, se debe seleccionar AmazonCloudWatch-ManageAgent.

Los parametros del comando serían los siguientes.

  1. En la lista Action , seleccione "Configure".
  2. En la sección Mode, se debe indicar "ec2".
  3. En la lista Optional Configuration Source, seleccione "ssm".
  4. En el cuadro Optional Configuration Location, introduzca el nombre del archivo de configuración del agente que se creó en el paso anterior y guardó en el almacén de parámetros de Systems Manager.
  5. En la lista Reinicio opcional , seleccione "Sí" para iniciar el agente una vez finalizados estos pasos.

En el área Destinos , elija las instancias donde instaló el agente de CloudWatch.

Seleccione Ejecutar y asegúrese de que se ejecute correctamente.


Verifique las métricas obtenidas por el agente de CloudWatch

Inicie sesión en el servidor de Windows

Utilice la sesión de PowerShell para ejecutar los siguientes comandos y verificar la configuración del agente de CloudWatch:

Para comprobar si el Agente de CloudWatch se está ejecutando, ejecute el comando:

Get-Service -Name "AmazonCloudWatchAgent"
Enter fullscreen mode Exit fullscreen mode

Asegúrese de que el servicio del Agente de CloudWatch esté en estado "En ejecución".

Asegúrese de que las métricas y los grupos de registros esperados aparezcan en la consola de CloudWatch.


Configuración de Alarmas

Para la configuración de las alarmas, utilizaremos Powershell, es importante que en el equipo se tengan configuradas las credenciales en AWS CLI, si no no funcionará.

Primero definiremos dos variables.
Para poder definir la variable SNS_ARN debes tener ya creado un tema en Amazon SNS, en este caso yo cree uno con nombre EC2-critical.

Definimos nuestras variables en PowerShell

$REGION = "us-east-1"
$SNS_ARN = "arn:aws:sns:us-east-1:IDCUENTAAWS:EC2-critical"
Enter fullscreen mode Exit fullscreen mode

Luego definimos la lista de instancias en PowerShell, indicando primero el ID y nombre, separado por dos puntos.

$INSTANCIAS = @(
  "i-05aaaaaaaaaaaaaaa:NOMBREINSTANCIAEC2",
  "i-03aaaaaaaaaaaaaaa:NOMBREINSTANCIAEC2",
  "i-0eaaaaaaaaaaaaaaa:NOMBREINSTANCIAEC2",
  "i-05aaaaaaaaaaaaaaa:NOMBREINSTANCIAEC2",
  "i-03aaaaaaaaaaaaaaa:NOMBREINSTANCIAEC2"
)

Enter fullscreen mode Exit fullscreen mode

Validamos las variables

$REGION
$SNS_ARN
$INSTANCIAS
Enter fullscreen mode Exit fullscreen mode

Y ejecutamos el siguiente script

foreach ($ITEM in $INSTANCIAS) {

  $PARTES = $ITEM.Split(":")
  $INSTANCE_ID = $PARTES[0]
  $NOMBRE = $PARTES[1]

  Write-Host "Creando alarmas para $NOMBRE ($INSTANCE_ID)"

  # MEMORIA ALTA
  aws cloudwatch put-metric-alarm `
    --alarm-name "Memoria alta - $NOMBRE" `
    --alarm-description "ALERTA CRÍTICA - MEMORIA`n`nServidor: $NOMBRE`nSistema: Windows Server`nMétrica: Memory % Committed Bytes In Use`nUmbral: >= 90%`nEvaluación: 2 periodos de 5 minutos`n`nImpacto:`nPosible degradación severa del sistema.`n`nAcción recomendada:`n- Revisar procesos con alto consumo de RAM`n- Validar uso de archivo de paginación`n- Considerar aumento de memoria" `
    --namespace "CWAgent" `
    --metric-name "Memory % Committed Bytes In Use" `
    --dimensions Name=InstanceId,Value=$INSTANCE_ID `
    --statistic Average `
    --period 300 `
    --evaluation-periods 2 `
    --threshold 90 `
    --comparison-operator GreaterThanOrEqualToThreshold `
    --treat-missing-data notBreaching `
    --alarm-actions $SNS_ARN `
    --region $REGION

  # POCO ESPACIO EN DISCO
  aws cloudwatch put-metric-alarm `
    --alarm-name "Poco espacio en disco - $NOMBRE" `
    --alarm-description "ALERTA CRÍTICA - DISCO`n`nServidor: $NOMBRE`nSistema: Windows Server`nMétrica: LogicalDisk % Free Space`nUmbral: <= 10%`nEvaluación: 1 periodo de 5 minutos`n`nImpacto:`nRiesgo de detención de servicios.`n`nAcción recomendada:`n- Liberar espacio`n- Revisar logs`n- Evaluar expansión del volumen" `
    --namespace "CWAgent" `
    --metric-name "LogicalDisk % Free Space" `
    --dimensions Name=InstanceId,Value=$INSTANCE_ID `
    --statistic Average `
    --period 300 `
    --evaluation-periods 1 `
    --threshold 10 `
    --comparison-operator LessThanOrEqualToThreshold `
    --treat-missing-data notBreaching `
    --alarm-actions $SNS_ARN `
    --region $REGION

  # CPU ALTA
  aws cloudwatch put-metric-alarm `
    --alarm-name "CPU alta - $NOMBRE" `
    --alarm-description "ALERTA CRÍTICA - CPU`n`nServidor: $NOMBRE`nSistema: Windows Server`nMétrica: Processor % User Time`nUmbral: >= 90%`nEvaluación: 2 periodos de 5 minutos`n`nImpacto:`nConsumo elevado de CPU sostenido.`n`nAcción recomendada:`n- Revisar procesos`n- Revisar tareas programadas`n- Evaluar escalamiento" `
    --namespace "CWAgent" `
    --metric-name "Processor % User Time" `
    --dimensions Name=InstanceId,Value=$INSTANCE_ID `
    --statistic Average `
    --period 300 `
    --evaluation-periods 2 `
    --threshold 90 `
    --comparison-operator GreaterThanOrEqualToThreshold `
    --treat-missing-data notBreaching `
    --alarm-actions $SNS_ARN `
    --region $REGION
}

Enter fullscreen mode Exit fullscreen mode

Y podemos verificar la creación de alarmas a través del panel de CloudWatch, "Todas las alarmas."

Puedes personalizar los comandos para cambiar, nombre, mensaje que se envia, umbral, etc.

Top comments (0)