DEV Community

Cover image for Cómo Monitorear Costos de Agentes IA sin Configuración
Elizabeth Fuentes L for AWS Español

Posted on

Cómo Monitorear Costos de Agentes IA sin Configuración

Strands Agents proporciona telemetría nativa y seguimiento de costos desde el primer momento. Deja de escribir contadores de tokens personalizados.

Construir agentes de IA es fácil. Desplegarlos a producción es donde la mayoría de los equipos se encuentran con un muro.

Una de las primeras preguntas de finanzas: "¿Cuánto costará esto por solicitud?"

La mayoría de los frameworks de agentes te obligan a construir tu propio contador de tokens. Strands Agents te proporciona uno.

El Problema con el Conteo Personalizado de Tokens

Cada aplicación de IA necesita monitoreo de costos. Pero rastrear tokens a través de:

  • Múltiples llamadas al modelo
  • Invocaciones de herramientas
  • Caché de prompts
  • Flujos de trabajo multi-agente

...requiere infraestructura personalizada que la mayoría de los equipos reconstruyen desde cero.

Telemetría Nativa en Strands Agents

Strands Agents incluye telemetría de grado de producción por defecto:

from strands import Agent
from strands_tools import calculator

# Crear un agente con herramientas
agent = Agent(tools=[calculator])

# Invocar el agente con un prompt y obtener un AgentResult
result = agent("¿Cuál es la raíz cuadrada de 144?")

# Acceder a métricas a través del AgentResult
print(f"Tokens totales: {result.metrics.accumulated_usage['totalTokens']}")
print(f"Tiempo de ejecución: {sum(result.metrics.cycle_durations):.2f} segundos")
print(f"Herramientas usadas: {list(result.metrics.tool_metrics.keys())}")

# Métricas de caché (cuando estén disponibles)
if 'cacheReadInputTokens' in result.metrics.accumulated_usage:
    print(f"Tokens leídos de caché: {result.metrics.accumulated_usage['cacheReadInputTokens']}")
if 'cacheWriteInputTokens' in result.metrics.accumulated_usage:
    print(f"Tokens escritos en caché: {result.metrics.accumulated_usage['cacheWriteInputTokens']}")
Enter fullscreen mode Exit fullscreen mode

Sin configuración. Sin código personalizado. Simplemente funciona.

Lo Que Obtienes

Cada AgentResult incluye:

Métrica Descripción
inputTokens Tokens enviados al modelo
outputTokens Tokens generados por el modelo
totalTokens Costo total (entrada + salida)
cacheReadInputTokens Tokens leídos desde caché (caché de prompts de Bedrock)
cacheWriteInputTokens Tokens escritos en caché

Seguimiento de Tokens Multi-Agente

Para sistemas multi-agente (ejecutor → validador → crítico), agrega métricas a través de todos los agentes:

from strands.multiagent import Swarm

swarm = Swarm([executor, validator, critic])
result = swarm("Consulta")

total_tokens = 0
for node_result in result.results.values():
    usage = node_result.result.metrics.accumulated_usage
    total_tokens += usage['totalTokens']

print(f"Costo total a través de todos los agentes: {total_tokens} tokens")
Enter fullscreen mode Exit fullscreen mode

Seguimiento por Ciclo

Para agentes que ejecutan múltiples ciclos de razonamiento, rastrea tokens por ciclo:

from strands import Agent
from strands_tools import calculator

agent = Agent(tools=[calculator])

# Primera invocación
result1 = agent("¿Cuánto es 5 + 3?")

# Segunda invocación
result2 = agent("¿Cuál es la raíz cuadrada de 144?")

# Acceder a métricas de la última invocación
latest_invocation = result2.metrics.latest_agent_invocation
cycles = latest_invocation.cycles
usage = latest_invocation.usage

# O acceder a todas las invocaciones
for invocation in response.metrics.agent_invocations:
    print(f"Uso de invocación: {invocation.usage}")
    for cycle in invocation.cycles:
        print(f"  Ciclo {cycle.event_loop_cycle_id}: {cycle.usage}")

# O imprimir el resumen (incluye todas las invocaciones)
print(result2.metrics.get_summary())
Enter fullscreen mode Exit fullscreen mode

Para una lista completa de atributos y sus tipos, consulta la referencia de API de EventLoopMetrics.

Por Qué Esto Importa

La visibilidad de costos es la diferencia entre un prototipo y una IA en producción.

Casos de Uso

Con la telemetría de Strands:

  • ✅ Presupuesta cargas de trabajo de IA antes del despliegue
  • ✅ Identifica consultas costosas en producción
  • ✅ Optimiza prompts con datos reales de tokens
  • ✅ Rastrea ahorros del caché de prompts

Todo sin escribir una sola línea de código de telemetría.

Funciona con Todos los Proveedores de Modelos

El seguimiento de tokens funciona independientemente de tu proveedor de modelo:

  • Amazon Bedrock (Claude, Llama, Mistral)
  • OpenAI (GPT-4, GPT-3.5)
  • Anthropic API
  • Ollama (modelos locales)

Misma API, mismas métricas, cero cambios de configuración.

Pruébalo

pip install strands-agents
Enter fullscreen mode Exit fullscreen mode

Documentación completa: strandsagents.com/docs/user-guide/concepts/agents/


Gracias!

🇻🇪🇨🇱 Dev.to Linkedin GitHub Twitter Instagram Youtube

Top comments (0)