Estás viendo errores como estos en tu app:
ThrottlingException: Too many requests, please wait before trying again.
El problema son las cuotas de Bedrock: RPM (requests por minuto) o TPM (tokens por minuto).
La solución es solicitar un aumento. En esta guía vas a encontrar el proceso completo: cómo revisar tus límites actuales, qué métricas sacar de CloudWatch, y una plantilla lista para pegar en el Support Center.
Tiempos: AWS Support tiene un SLA de 48 horas, pero abre el caso con al menos 72 horas de antelación. No improvises cuando ya estás en producción.
Idioma: Escribe el caso en inglés. Se resuelve más rápido. La plantilla al final ya está en inglés.
Paso 1: Revisa tus cuotas actuales
Ve a AWS Console → Service Quotas → AWS Services → Amazon Bedrock.
Busca tu modelo y revisa los valores de RPM y TPM aplicados. Si la cuota fue aumentada antes, verás el valor real, no el default de AWS.
También puedes ver si ya tienes una solicitud en vuelo en la pestaña Pending quota requests.
Paso 2: Extrae tu uso real desde CloudWatch
Ve a CloudWatch → Metrics → All metrics → AWS/Bedrock.
Usa el inference profile ID como dimensión ModelId, no el ID del modelo base. Si usas inferencia global o cross-region, el profile ID puede parecer un string aleatorio.
Las métricas que necesitas, con periodo de 1 minuto:
| Métrica | Estadística | Qué te dice |
|---|---|---|
Invocations |
Sum | Llamadas por minuto (tu RPM real) |
InputTokenCount |
Sum | Tokens de entrada por minuto |
OutputTokenCount |
Sum | Tokens de salida por minuto |
InvocationThrottles |
Sum | Requests rechazados por cuota |
EstimatedTPMQuotaUsage |
Average / Max | % de cuota TPM consumida |
Con esos datos calcula:
- Steady State TPM/RPM = promedio en horario normal
- Peak TPM/RPM = máximo observado
- Avg tokens per request = total tokens / total invocaciones
Si InvocationThrottles > 0 o EstimatedTPMQuotaUsage supera el 80% de forma sostenida, inclúyelo en el caso — es tu mejor argumento.
Paso 3: Redacta el caso
Con los números del paso anterior, completa esta plantilla en texto plano. La vas a necesitar lista antes de abrir el ticket.
Plantilla del caso (texto plano, en inglés)
AWS Account Manager: (optional but recommended)
AWS Solutions Architect: (optional but recommended)
Business Context
[What your company does, its scale, and industry.]
Business Objective
[Specific goal: e.g., process N requests/minute for real-time inference.]
Architecture Overview
[How your system works and which AWS services are involved.]
Current Usage Baseline
[Your CloudWatch numbers here.]
Current usage:
Input modalities: Text / Image / Audio / Video
Output modalities: Text / Image / Audio / Video
Steady State TPM: ...
Peak TPM: ...
Steady State RPM: ...
Peak RPM: ...
Avg Input Tokens per Request: ...
Avg Output Tokens per Request: ...
Requested Quota
[Exact quota name from Service Quotas + value needed.]
Expected usage after quota increase:
Input modalities: Text / Image / Audio / Video
Output modalities: Text / Image / Audio / Video
Steady State TPM: ...
Peak TPM: ...
Steady State RPM: ...
Peak RPM: ...
Avg Input Tokens per Request: ...
Avg Output Tokens per Request: ...
Justification
[Tie your baseline to the business need. Lead with throttle data if you have it.]
Inference scope
[Global or region-only. If region-only, explain why.]
Paso 4: Abre el caso de soporte
Ve al AWS Support Center → Support interactions → describe tu necesidad en el chat. Al fondo aparecerá el botón Create case, dale clic y completa:
- Case type: Service limit increase
- Service: Service Limit Increase
- Category: General
Bonus: automatiza esto con Kiro
Todo este proceso, consultar cuotas, extraer métricas de CloudWatch, calcular los números y generar el borrador del caso, lo puedes hacer de forma asistida con el AWS Quota Request Power para Kiro que construí para esto. Incluye un steering file específico para Bedrock con toda la lógica de RPM, TPM y perfiles de inferencia.
Si usas Kiro, vale la pena echarle un vistazo.

Top comments (0)