DEV Community

Cover image for Cómo solicitar aumentos de cuota para Amazon Bedrock (y que te los aprueben)
Daniel Castillo
Daniel Castillo

Posted on

Cómo solicitar aumentos de cuota para Amazon Bedrock (y que te los aprueben)

Estás viendo errores como estos en tu app:

ThrottlingException: Too many requests, please wait before trying again.
Enter fullscreen mode Exit fullscreen mode

El problema son las cuotas de Bedrock: RPM (requests por minuto) o TPM (tokens por minuto).

La solución es solicitar un aumento. En esta guía vas a encontrar el proceso completo: cómo revisar tus límites actuales, qué métricas sacar de CloudWatch, y una plantilla lista para pegar en el Support Center.

Tiempos: AWS Support tiene un SLA de 48 horas, pero abre el caso con al menos 72 horas de antelación. No improvises cuando ya estás en producción.

Idioma: Escribe el caso en inglés. Se resuelve más rápido. La plantilla al final ya está en inglés.

Paso 1: Revisa tus cuotas actuales

Ve a AWS Console → Service Quotas → AWS Services → Amazon Bedrock.

Busca tu modelo y revisa los valores de RPM y TPM aplicados. Si la cuota fue aumentada antes, verás el valor real, no el default de AWS.

También puedes ver si ya tienes una solicitud en vuelo en la pestaña Pending quota requests.

Paso 2: Extrae tu uso real desde CloudWatch

Ve a CloudWatch → Metrics → All metrics → AWS/Bedrock.

Usa el inference profile ID como dimensión ModelId, no el ID del modelo base. Si usas inferencia global o cross-region, el profile ID puede parecer un string aleatorio.

Las métricas que necesitas, con periodo de 1 minuto:

Métrica Estadística Qué te dice
Invocations Sum Llamadas por minuto (tu RPM real)
InputTokenCount Sum Tokens de entrada por minuto
OutputTokenCount Sum Tokens de salida por minuto
InvocationThrottles Sum Requests rechazados por cuota
EstimatedTPMQuotaUsage Average / Max % de cuota TPM consumida

CloudWatch Metrics - AWS/Bedrock

Con esos datos calcula:

  • Steady State TPM/RPM = promedio en horario normal
  • Peak TPM/RPM = máximo observado
  • Avg tokens per request = total tokens / total invocaciones

Si InvocationThrottles > 0 o EstimatedTPMQuotaUsage supera el 80% de forma sostenida, inclúyelo en el caso — es tu mejor argumento.

Paso 3: Redacta el caso

Con los números del paso anterior, completa esta plantilla en texto plano. La vas a necesitar lista antes de abrir el ticket.

Plantilla del caso (texto plano, en inglés)

AWS Account Manager: (optional but recommended)
AWS Solutions Architect: (optional but recommended)

Business Context
[What your company does, its scale, and industry.]

Business Objective
[Specific goal: e.g., process N requests/minute for real-time inference.]

Architecture Overview
[How your system works and which AWS services are involved.]

Current Usage Baseline
[Your CloudWatch numbers here.]

Current usage:
  Input modalities:  Text / Image / Audio / Video
  Output modalities: Text / Image / Audio / Video
  Steady State TPM:  ...
  Peak TPM:          ...
  Steady State RPM:  ...
  Peak RPM:          ...
  Avg Input Tokens per Request:  ...
  Avg Output Tokens per Request: ...

Requested Quota
[Exact quota name from Service Quotas + value needed.]

Expected usage after quota increase:
  Input modalities:  Text / Image / Audio / Video
  Output modalities: Text / Image / Audio / Video
  Steady State TPM:  ...
  Peak TPM:          ...
  Steady State RPM:  ...
  Peak RPM:          ...
  Avg Input Tokens per Request:  ...
  Avg Output Tokens per Request: ...

Justification
[Tie your baseline to the business need. Lead with throttle data if you have it.]

Inference scope
[Global or region-only. If region-only, explain why.]
Enter fullscreen mode Exit fullscreen mode

Paso 4: Abre el caso de soporte

Ve al AWS Support CenterSupport interactions → describe tu necesidad en el chat. Al fondo aparecerá el botón Create case, dale clic y completa:

  • Case type: Service limit increase
  • Service: Service Limit Increase
  • Category: General

Bonus: automatiza esto con Kiro

Todo este proceso, consultar cuotas, extraer métricas de CloudWatch, calcular los números y generar el borrador del caso, lo puedes hacer de forma asistida con el AWS Quota Request Power para Kiro que construí para esto. Incluye un steering file específico para Bedrock con toda la lógica de RPM, TPM y perfiles de inferencia.

Si usas Kiro, vale la pena echarle un vistazo.

Top comments (0)