Los agentes de IA no fallan como el software tradicional: no se bloquean con un stack trace. Fallan silenciosamente: devuelven respuestas incompletas, se congelan en APIs lentas o queman tokens llamando a la misma herramienta una y otra vez. El agente parece funcionar, pero la salida está mal, llega tarde o es costosa.
Esta serie cubre los tres modos de fallo más comunes con soluciones respaldadas por investigación. Cada técnica tiene una demostración ejecutable que mide la diferencia antes/después.
Código funcional: github.com/aws-samples/sample-why-agents-fail
Las demos usan Strands Agents con OpenAI (GPT-4o-mini). Los patrones son independientes del framework: aplican a LangGraph, AutoGen, CrewAI o cualquier framework que soporte llamadas a herramientas y hooks de ciclo de vida.
Esta Serie: 3 Soluciones Esenciales
- Desbordamiento de Ventana de Contexto — Patrón de Puntero de Memoria para datos grandes
- Herramientas MCP Que Nunca Responden — Patrón handleId asíncrono para APIs externas lentas
- Loops de Razonamiento en Agentes de IA — DebounceHook + estados claros de herramientas para bloquear llamadas repetidas
¿Qué Sucede Cuando las Salidas de Herramientas Desbordan la Ventana de Contexto?
El desbordamiento de ventana de contexto ocurre cuando una herramienta devuelve más datos de los que el LLM puede procesar: logs del servidor, resultados de bases de datos o contenidos de archivos que exceden el límite de tokens. El agente no falla con un error. Se degrada silenciosamente: trunca datos, pierde contexto o produce respuestas incompletas.
Una investigación de IBM cuantifica esto: un flujo de trabajo de Ciencia de Materiales consumió 20 millones de tokens y falló. El mismo flujo con punteros de memoria usó 1,234 tokens y tuvo éxito.
La solución — Patrón de Puntero de Memoria: Almacena datos grandes en agent.state, devuelve un puntero corto al contexto. La siguiente herramienta resuelve el puntero para acceder a los datos completos:
from strands import tool, ToolContext
@tool(context=True)
def fetch_application_logs(app_name: str, tool_context: ToolContext, hours: int = 24) -> str:
"""Obtiene logs. Almacena datos grandes como puntero para evitar desbordamiento de contexto."""
logs = generate_logs(app_name, hours) # Podría ser 200KB+
if len(str(logs)) > 20_000:
pointer = f"logs-{app_name}"
tool_context.agent.state.set(pointer, logs)
return f"Datos almacenados como puntero '{pointer}'. Usa herramientas de análisis para consultarlo."
return str(logs)
@tool(context=True)
def analyze_error_patterns(data_pointer: str, tool_context: ToolContext) -> str:
"""Analiza errores — resuelve puntero desde agent.state."""
data = tool_context.agent.state.get(data_pointer)
errors = [e for e in data if e["level"] == "ERROR"]
return f"Se encontraron {len(errors)} errores en {len(set(e['service'] for e in errors))} servicios"
El LLM nunca ve los 200KB: solo ve "Datos almacenados como puntero 'logs-payment-service'" (52 bytes).
¿Por qué Strands Agents? La API de ToolContext proporciona agent.state como un almacén clave-valor nativo con alcance para cada agente: sin diccionarios globales, sin infraestructura externa. Para flujos multi-agente, invocation_state comparte datos entre agentes en un Swarm con la misma API.
| Métrica | Sin punteros | Con Punteros de Memoria |
|---|---|---|
| Datos en contexto | 214KB (logs completos) | 52 bytes (puntero) |
| Comportamiento del agente | Trunca o falla | Procesa todos los datos |
| Errores detectados | Parcial | Completo |
Demo completa: 01-context-overflow-demo — implementaciones de agente único y multi-agente (Swarm) con notebooks.
¿Por Qué los Agentes de IA se Congelan al Llamar APIs Externas?
Los agentes de IA se congelan cuando las herramientas MCP llaman a APIs externas lentas o que no responden. El agente se bloquea en la llamada a la herramienta, el usuario no ve progreso, y después de 7 segundos muchas implementaciones devuelven un error 424. MCP (Model Context Protocol) les da a los agentes la capacidad de llamar herramientas externas, pero no maneja timeout o reintentos por defecto.
La solución — Patrón handleId asíncrono: La herramienta devuelve inmediatamente un ID de trabajo. El agente consulta una herramienta separada check_status:
from mcp.server.fastmcp import FastMCP
mcp = FastMCP("timeout-demo")
JOBS = {}
@mcp.tool()
async def start_long_job(task: str) -> str:
"""Devuelve handle inmediatamente — previene timeout."""
job_id = str(uuid.uuid4())[:8]
JOBS[job_id] = {"status": "processing", "task": task}
asyncio.create_task(_process_job(job_id)) # Trabajo en segundo plano
return f"Trabajo iniciado. Handle: {job_id}. Usa check_job_status para consultar."
@mcp.tool()
async def check_job_status(job_id: str) -> str:
"""Consulta estado del trabajo — devuelve 'processing' o 'completed' con resultado."""
job = JOBS.get(job_id)
if not job:
return f"FAILED: Trabajo '{job_id}' no encontrado"
return f"{job['status'].upper()}: {job.get('result', 'Todavía procesando...')}"
| Escenario | Tiempo de respuesta | UX |
|---|---|---|
| API rápida (1s) | 3s total | OK |
| API lenta (15s) | 18s bloqueado | Agente congelado |
| API fallida | Error 424 después de 7s | Agente falla |
| handleId asíncrono | ~4s (inmediato + consulta) | Agente responde |
¿Por qué Strands Agents? El MCPClient se conecta a cualquier servidor MCP. El agente descubre herramientas en tiempo de ejecución vía list_tools_sync(): sin lista de herramientas codificada. Cuando el servidor MCP implementa el patrón asíncrono, el agente consulta automáticamente sin código de orquestación adicional.
Demo completa: 02-mcp-timeout-demo — servidor MCP local con los 4 escenarios y notebook.
¿Por Qué los Agentes de IA Repiten la Misma Llamada a Herramienta?
Los loops de razonamiento en agentes de IA ocurren cuando el agente llama a la misma herramienta repetidamente con parámetros idénticos, sin hacer progreso. La causa raíz es retroalimentación ambigua de la herramienta: respuestas como "puede haber más resultados disponibles" hacen que el agente piense que otra llamada producirá mejores resultados. Las investigaciones muestran que los agentes pueden hacer loops cientos de veces sin entregar una respuesta.
Solución 1 — Estados terminales claros: Las herramientas devuelven SUCCESS o FAILED explícito en lugar de mensajes ambiguos:
# Ambiguo (causa loops)
return f"Vuelos encontrados: {results}. Puede haber más resultados disponibles."
# Claro (el agente se detiene)
return f"SUCCESS: Vuelo {conf_id} reservado para {passenger}. Confirmación enviada."
Solución 2 — DebounceHook: Detecta y bloquea llamadas duplicadas a herramientas a nivel de framework:
from strands.hooks.registry import HookProvider, HookRegistry
from strands.hooks.events import BeforeToolCallEvent
class DebounceHook(HookProvider):
"""Bloquea llamadas duplicadas a herramientas en una ventana deslizante."""
def __init__(self, window_size=3):
self.call_history = []
self.window_size = window_size
def register_hooks(self, registry: HookRegistry) -> None:
registry.add_callback(BeforeToolCallEvent, self.check_duplicate)
def check_duplicate(self, event: BeforeToolCallEvent) -> None:
key = (event.tool_use["name"], json.dumps(event.tool_use.get("input", {})))
if self.call_history.count(key) >= 2:
event.cancel_tool = f"BLOCKED: Llamada duplicada a {event.tool_use['name']}"
self.call_history.append(key)
self.call_history = self.call_history[-self.window_size:]
| Estrategia | Llamadas a herramientas | Resultado |
|---|---|---|
| Retroalimentación ambigua (línea base) | 14 llamadas | Sin respuesta definitiva |
| DebounceHook | 12 llamadas (2 bloqueadas) | Completa con bloqueos |
| Estados SUCCESS claros | 2 llamadas | Completado inmediato |
¿Por qué Strands Agents? La API de HookProvider intercepta llamadas a herramientas vía BeforeToolCallEvent antes de que se ejecuten. Establecer event.cancel_tool bloquea la ejecución a nivel de framework: el LLM no puede omitirlo. Esto hace que los hooks sean componibles para apilar DebounceHook, LimitToolCounts y validadores personalizados en el mismo agente.
Demo completa: 03-reasoning-loops-demo — los 4 escenarios con hooks y notebook.
Requisitos Previos
Necesitas Python 3.9+, uv (un gestor de paquetes rápido de Python), y una clave API de OpenAI.
git clone https://github.com/aws-samples/sample-why-agents-fail
cd sample-why-agents-fail/stop-ai-agents-wasting-tokens
# Elige cualquier demo
cd 01-context-overflow-demo # o 02-mcp-timeout-demo, 03-reasoning-loops-demo
uv venv && uv pip install -r requirements.txt
export OPENAI_API_KEY="tu-clave-aquí"
uv run python test_*.py
Cada demo es independiente con sus propias dependencias, script de prueba y notebook de Jupyter.
Preguntas Frecuentes
¿Cuáles son los modos de fallo más comunes en agentes de IA?
Los tres modos de fallo más comunes son el desbordamiento de ventana de contexto (la herramienta devuelve más datos de los que el LLM puede procesar), timeouts de herramientas MCP (APIs externas bloquean al agente indefinidamente) y loops de razonamiento (el agente repite la misma llamada a herramienta sin progresar). Cada modo de fallo causa desperdicio de tokens y degrada la calidad de respuesta.
¿Cómo reduzco los costos de tokens de un agente de IA?
Las dos técnicas más efectivas son los punteros de memoria y estados claros de herramientas. El Patrón de Puntero de Memoria almacena salidas grandes de herramientas en estado externo y pasa referencias cortas al contexto del LLM, reduciendo el uso de tokens de más de 200KB a menos de 100 bytes por llamada a herramienta. Estados terminales claros (SUCCESS/FAILED) en respuestas de herramientas previenen que el agente reintente operaciones completadas, lo que puede reducir las llamadas a herramientas de 14 a 2.
¿Puedo usar estos patrones con frameworks distintos a Strands Agents?
Sí. El Patrón de Puntero de Memoria funciona con cualquier framework que soporte contexto de herramientas (pasar estado entre herramientas). El patrón handleId asíncrono es un patrón de diseño de servidor MCP: funciona con cualquier agente compatible con MCP. DebounceHook requiere hooks de ciclo de vida, que están disponibles en LangGraph, AutoGen y CrewAI con APIs diferentes.
Referencias
Investigación
- Solving Context Window Overflow in AI Agents — IBM Research, Nov 2025
- Towards Effective GenAI Multi-Agent Collaboration — Amazon, Dec 2024
- Resilient AI Agents With MCP — Octopus, May 2025
- Language models can overthink — The Decoder, Jan 2025
Implementación
- Strands Agent State — ToolContext and agent.state
- Strands MCP Tools — Connect any MCP server
- Strands Hooks — Lifecycle events and tool cancellation
¿Qué modo de fallo has encontrado en tus agentes? Comparte en los comentarios.
Gracias!






Top comments (0)