Si está desarrollando con Claude Fable 5 y necesita planificar capacidad, la idea clave es esta: Anthropic no publicó límites de velocidad exclusivos para Fable 5. El modelo claude-fable-5 usa la misma API de Mensajes y los límites estándar por niveles de su organización. Esos límites se aplican por organización y por clase de modelo, y dependen del nivel de uso de su cuenta. Si todavía está evaluando el modelo, esta descripción general de Claude Fable 5 puede servir como contexto.
TL;DR
Claude Fable 5 usa los límites de velocidad estándar de Anthropic:
- RPM: solicitudes por minuto.
- ITPM: tokens de entrada por minuto.
- OTPM: tokens de salida por minuto.
Los límites se aplican por organización y por clase de modelo. Aumentan a medida que su cuenta avanza por los niveles de uso. Para valores reales, revise siempre la Consola de Anthropic. Si recibe un 429, respete el encabezado retry-after.
Cómo funcionan los límites de velocidad de Anthropic
Anthropic no usa un único límite global para toda la API. El rendimiento depende del nivel de uso de su organización.
Hay dos conceptos relacionados:
- Límites de gasto: cuánto puede facturarse por mes calendario.
- Límites de velocidad: qué tan rápido puede llamar a la API.
Este artículo se centra en los límites de velocidad, pero ambos están conectados porque el nivel de uso afecta a los dos.
Tipos de límites
Para la API de Mensajes, Anthropic mide el uso en tres dimensiones.
1. Solicitudes por minuto: RPM
Cantidad de llamadas separadas que puede iniciar por minuto.
Ejemplo práctico:
50 RPM ≈ hasta 50 solicitudes por minuto
Pero no significa que pueda enviar las 50 al mismo tiempo. Anthropic usa un algoritmo de cubo de tokens, por lo que las ráfagas pueden activar límites aunque el promedio parezca correcto.
2. Tokens de entrada por minuto: ITPM
Cantidad de tokens que puede enviar como entrada por minuto.
En muchos modelos actuales, los tokens leídos desde una caché de prompt no cuentan contra ITPM. Por eso el almacenamiento en caché puede aumentar mucho el rendimiento efectivo cuando reutiliza:
- prompts de sistema largos,
- definiciones de herramientas,
- documentos de referencia,
- instrucciones compartidas entre solicitudes.
3. Tokens de salida por minuto: OTPM
Cantidad de tokens que el modelo puede generar por minuto.
Este límite se consume mientras el modelo produce texto. El valor de max_tokens no se cobra por adelantado contra OTPM. Solo cuentan los tokens generados realmente.
Por ejemplo, esta llamada permite hasta 4096 tokens, pero OTPM solo se consume según la salida real:
message = client.messages.create(
model="claude-fable-5",
max_tokens=4096,
messages=[
{"role": "user", "content": "Resume este documento técnico."}
],
)
Límites por organización y por clase de modelo
Los límites se aplican a nivel de organización, no por clave de API.
Eso significa que si tiene varias claves dentro de la misma organización, todas consumen del mismo grupo de límites.
También se aplican por clase de modelo. El tráfico de Fable 5 se mide en su propio grupo, separado de otras clases como Opus. Puede ejecutar varias clases de modelo en paralelo, cada una contra sus propios límites.
Cómo avanzan los niveles
Anthropic avanza su organización automáticamente cuando sus compras acumuladas de crédito cruzan ciertos umbrales.
Según los niveles publicados:
-
Nivel 1: se desbloquea con una compra de crédito de
$5. -
Nivel 2: con
$40acumulados. -
Nivel 3: con
$200acumulados. -
Nivel 4: con
$400acumulados.
Por encima del Nivel 4, los límites más altos suelen gestionarse mediante ventas o facturación mensual.
Para entender cómo estos niveles se relacionan con el costo del modelo, consulte el desglose de precios de Claude Fable 5.
Qué significa esto para Claude Fable 5
Fable 5 no tiene un sistema especial de límites. Se integra en la tabla estándar de Anthropic como una clase de modelo.
La pregunta correcta no es:
¿Cuál es el límite universal de Fable 5?
Sino:
¿En qué nivel está mi organización y cuáles son los límites de Fable 5 para ese nivel?
Según las tablas publicadas por Anthropic, la fila de Fable 5 escala aproximadamente así:
| Nivel | RPM | ITPM | OTPM |
|---|---|---|---|
| Nivel 1 | 50 | 100,000 | 20,000 |
| Nivel 2 | 1,000 | 500,000 | 100,000 |
| Nivel 3 | 2,000 | 1,500,000 | 300,000 |
| Nivel 4 | 4,000 | 4,000,000 | 800,000 |
Use estos valores como referencia, no como contrato. La fuente de verdad es siempre su cuenta en la Consola de Anthropic.
El límite que más suele importar: OTPM
En cargas largas con Fable 5, el límite más importante suele ser OTPM.
Esto ocurre porque Fable 5 está orientado a tareas de gran alcance, como:
- agentes que ejecutan pasos largos,
- análisis de documentos extensos,
- generación de reportes grandes,
- flujos con mucha salida intermedia.
Una generación larga no consume todo el OTPM al inicio. Lo consume de forma sostenida mientras transmite tokens. Si ejecuta varias tareas largas en paralelo, puede alcanzar OTPM antes que RPM.
Dos prácticas recomendadas:
- Ajuste
max_tokensal tamaño real esperado. - Use streaming para salidas largas.
Ejemplo base con streaming conceptual:
import anthropic
client = anthropic.Anthropic()
with client.messages.stream(
model="claude-fable-5",
max_tokens=4096,
messages=[
{"role": "user", "content": "Genera un informe técnico detallado."}
],
) as stream:
for text in stream.text_stream:
print(text, end="")
Si está configurando el modelo por primera vez, esta guía de la API de Claude Fable 5 explica la forma de la solicitud.
Cómo comprobar sus límites reales
No base su implementación únicamente en una tabla publicada. Compruebe sus límites en dos lugares.
1. Consola de Anthropic
En la Consola de Anthropic, revise:
- el nivel actual de su organización,
- los límites por modelo,
- el uso de tokens de entrada y salida,
- la tasa de aciertos de caché,
- la proximidad a sus límites.
Esto le permite responder antes de escalar tráfico:
¿Tengo margen suficiente o estoy cerca del límite?
2. Encabezados de respuesta de la API
Cada respuesta incluye encabezados anthropic-ratelimit-*.
Los más útiles son:
anthropic-ratelimit-requests-limit
anthropic-ratelimit-requests-remaining
anthropic-ratelimit-input-tokens-limit
anthropic-ratelimit-input-tokens-remaining
anthropic-ratelimit-output-tokens-limit
anthropic-ratelimit-output-tokens-remaining
También hay encabezados *-reset en formato RFC 3339 que indican cuándo se recarga completamente cada cubo.
Puede usarlos para aplicar regulación antes de recibir errores 429.
Ejemplo de lectura de encabezados con una respuesta HTTP directa:
import requests
import os
response = requests.post(
"https://api.anthropic.com/v1/messages",
headers={
"x-api-key": os.environ["ANTHROPIC_API_KEY"],
"anthropic-version": "2023-06-01",
"content-type": "application/json",
},
json={
"model": "claude-fable-5",
"max_tokens": 1024,
"messages": [
{"role": "user", "content": "Resume este texto en viñetas."}
],
},
)
print("RPM restante:", response.headers.get("anthropic-ratelimit-requests-remaining"))
print("ITPM restante:", response.headers.get("anthropic-ratelimit-input-tokens-remaining"))
print("OTPM restante:", response.headers.get("anthropic-ratelimit-output-tokens-remaining"))
Cómo manejar errores 429
Un 429 significa que alcanzó uno de los límites.
La respuesta incluye un encabezado importante:
retry-after
Ese valor indica cuántos segundos debe esperar antes de intentar de nuevo. Reintentar antes de ese tiempo normalmente solo genera otro 429.
Usar los reintentos del SDK
El SDK oficial de Anthropic ya reintenta errores 429 y 5xx con retroceso exponencial. Por defecto usa dos reintentos.
Puede aumentar max_retries si tiene una carga por lotes propensa a límites:
import anthropic
client = anthropic.Anthropic()
resilient = client.with_options(max_retries=5)
message = resilient.messages.create(
model="claude-fable-5",
max_tokens=4096,
messages=[
{
"role": "user",
"content": "Redacta un resumen de lanzamiento para el changelog de junio."
}
],
)
print(message.content[0].text)
Capturar RateLimitError manualmente
Si necesita mostrar estado en su interfaz o coordinar una cola, capture la excepción y lea retry-after:
import anthropic
client = anthropic.Anthropic()
try:
message = client.messages.create(
model="claude-fable-5",
max_tokens=4096,
messages=[
{"role": "user", "content": "Resume este informe de incidente."}
],
)
except anthropic.RateLimitError as exc:
wait_seconds = int(exc.response.headers.get("retry-after", "60"))
print(f"Límite alcanzado. Reintentando después de {wait_seconds}s.")
Use una cola para tráfico irregular
Los reintentos ayudan, pero no sustituyen una buena arquitectura.
Si su tráfico llega en ráfagas, coloque las solicitudes en una cola y procéselas a una velocidad que su nivel pueda absorber.
Un patrón simple:
Productores -> Cola -> Workers con control de tasa -> API de Anthropic
Los workers pueden ajustar su velocidad leyendo:
anthropic-ratelimit-requests-remaining
anthropic-ratelimit-input-tokens-remaining
anthropic-ratelimit-output-tokens-remaining
Esto convierte una pared de errores 429 en una tubería más estable.
Los mismos patrones de prueba y regulación aparecen al trabajar con cualquier API con límites. La guía sobre cómo probar la API de ChatGPT con Apidog aplica ideas similares.
Cómo aumentar sus límites o reducir presión
Cuando alcanza límites de forma constante, tiene dos opciones:
- Conseguir más margen.
- Consumir menos margen.
Opción 1: avanzar de nivel
A medida que compra más créditos y aumenta el uso acumulado, su organización sube de nivel automáticamente.
Cada nivel aumenta:
- RPM,
- ITPM,
- OTPM,
- límites de gasto.
Si necesita límites personalizados, use la página de límites en la Consola para contactar con ventas. El Nivel Prioritario y la facturación mensual están pensados para cargas comprometidas o de alto volumen.
Opción 2: reducir consumo de tokens
Estas optimizaciones suelen tener impacto inmediato.
Use la API de Batches
Para trabajos que no son sensibles a la latencia, use la API de Batches.
Ventajas:
- procesamiento asíncrono,
- costo aproximado del 50% del estándar,
- grupo de límites separado,
- evita que trabajos masivos compitan con tráfico interactivo.
Active caché de prompts
Si reutiliza contexto, active caching.
Casos típicos:
- prompt de sistema grande,
- instrucciones fijas,
- documentos de referencia,
- definiciones de herramientas.
Luego confirme en la página de uso que la tasa de aciertos de caché aumenta.
Ajuste max_tokens
No hay penalización directa por establecer un max_tokens alto, pero permite que una respuesta se extienda más y consuma OTPM durante más tiempo.
Use un límite razonable para cada tipo de tarea:
# Resumen corto
max_tokens = 512
# Informe técnico
max_tokens = 4096
# Generación larga controlada
max_tokens = 8192
Transmita salidas largas
El streaming ayuda a:
- evitar timeouts,
- mostrar progreso al usuario,
- observar la generación en tiempo real,
- controlar mejor tareas largas.
Para agentes y cargas de larga duración, este recorrido sobre el agente Claude Fable 5 muestra cómo encajan estas prácticas.
Si está comparando clases de modelos, consulte también la guía de la API de Claude Opus 4.8 y las notas de precios de Opus 4.8.
Supervise su uso de Fable 5 con Apidog
La forma más directa de entender sus límites es observar solicitudes reales.
Con Apidog, puede crear una solicitud contra la API de Mensajes, enviarla e inspeccionar:
- encabezados
anthropic-ratelimit-*, - objeto
usage, - tokens de entrada,
- tokens de salida,
- tokens leídos desde caché.
Esto le permite ver cuánto margen queda antes de alcanzar ITPM u OTPM.
Un flujo práctico:
- Cree una solicitud Fable 5 en Apidog.
- Envíe un prompt representativo.
- Lea
anthropic-ratelimit-output-tokens-remaining. - Revise
usage.output_tokens. - Active caché de prompt.
- Envíe la misma solicitud de nuevo.
- Confirme que
usage.cache_read_input_tokensaumenta. - Verifique que el consumo de ITPM se reduce.
También puede guardar la solicitud, variar max_tokens y comprobar que OTPM sigue la salida real, no el límite configurado.
Descargue Apidog si quiere ejecutar el experimento con su propia clave. Si su equipo ya usa Apidog para diseño y pruebas de API, puede integrar esta supervisión en el mismo espacio de trabajo.

Top comments (0)