Roobia

Posted on Jun 11 • Originally published at apidog.com

Claude Fable 5 Límites de Tasa Explicados

Si está desarrollando con Claude Fable 5 y necesita planificar capacidad, la idea clave es esta: Anthropic no publicó límites de velocidad exclusivos para Fable 5. El modelo claude-fable-5 usa la misma API de Mensajes y los límites estándar por niveles de su organización. Esos límites se aplican por organización y por clase de modelo, y dependen del nivel de uso de su cuenta. Si todavía está evaluando el modelo, esta descripción general de Claude Fable 5 puede servir como contexto.

Prueba Apidog hoy

TL;DR

Claude Fable 5 usa los límites de velocidad estándar de Anthropic:

RPM: solicitudes por minuto.
ITPM: tokens de entrada por minuto.
OTPM: tokens de salida por minuto.

Los límites se aplican por organización y por clase de modelo. Aumentan a medida que su cuenta avanza por los niveles de uso. Para valores reales, revise siempre la Consola de Anthropic. Si recibe un 429, respete el encabezado retry-after.

Cómo funcionan los límites de velocidad de Anthropic

Anthropic no usa un único límite global para toda la API. El rendimiento depende del nivel de uso de su organización.

Hay dos conceptos relacionados:

Límites de gasto: cuánto puede facturarse por mes calendario.
Límites de velocidad: qué tan rápido puede llamar a la API.

Este artículo se centra en los límites de velocidad, pero ambos están conectados porque el nivel de uso afecta a los dos.

Tipos de límites

Para la API de Mensajes, Anthropic mide el uso en tres dimensiones.

1. Solicitudes por minuto: RPM

Cantidad de llamadas separadas que puede iniciar por minuto.

Ejemplo práctico:

50 RPM ≈ hasta 50 solicitudes por minuto

Pero no significa que pueda enviar las 50 al mismo tiempo. Anthropic usa un algoritmo de cubo de tokens, por lo que las ráfagas pueden activar límites aunque el promedio parezca correcto.

2. Tokens de entrada por minuto: ITPM

Cantidad de tokens que puede enviar como entrada por minuto.

En muchos modelos actuales, los tokens leídos desde una caché de prompt no cuentan contra ITPM. Por eso el almacenamiento en caché puede aumentar mucho el rendimiento efectivo cuando reutiliza:

prompts de sistema largos,
definiciones de herramientas,
documentos de referencia,
instrucciones compartidas entre solicitudes.

3. Tokens de salida por minuto: OTPM

Cantidad de tokens que el modelo puede generar por minuto.

Este límite se consume mientras el modelo produce texto. El valor de max_tokens no se cobra por adelantado contra OTPM. Solo cuentan los tokens generados realmente.

Por ejemplo, esta llamada permite hasta 4096 tokens, pero OTPM solo se consume según la salida real:

message = client.messages.create(
    model="claude-fable-5",
    max_tokens=4096,
    messages=[
        {"role": "user", "content": "Resume este documento técnico."}
    ],
)

Límites por organización y por clase de modelo

Los límites se aplican a nivel de organización, no por clave de API.

Eso significa que si tiene varias claves dentro de la misma organización, todas consumen del mismo grupo de límites.

También se aplican por clase de modelo. El tráfico de Fable 5 se mide en su propio grupo, separado de otras clases como Opus. Puede ejecutar varias clases de modelo en paralelo, cada una contra sus propios límites.

Cómo avanzan los niveles

Anthropic avanza su organización automáticamente cuando sus compras acumuladas de crédito cruzan ciertos umbrales.

Según los niveles publicados:

Nivel 1: se desbloquea con una compra de crédito de $5.
Nivel 2: con $40 acumulados.
Nivel 3: con $200 acumulados.
Nivel 4: con $400 acumulados.

Por encima del Nivel 4, los límites más altos suelen gestionarse mediante ventas o facturación mensual.

Para entender cómo estos niveles se relacionan con el costo del modelo, consulte el desglose de precios de Claude Fable 5.

Qué significa esto para Claude Fable 5

Fable 5 no tiene un sistema especial de límites. Se integra en la tabla estándar de Anthropic como una clase de modelo.

La pregunta correcta no es:

¿Cuál es el límite universal de Fable 5?

Sino:

¿En qué nivel está mi organización y cuáles son los límites de Fable 5 para ese nivel?

Según las tablas publicadas por Anthropic, la fila de Fable 5 escala aproximadamente así:

Nivel	RPM	ITPM	OTPM
Nivel 1	50	100,000	20,000
Nivel 2	1,000	500,000	100,000
Nivel 3	2,000	1,500,000	300,000
Nivel 4	4,000	4,000,000	800,000

Use estos valores como referencia, no como contrato. La fuente de verdad es siempre su cuenta en la Consola de Anthropic.

El límite que más suele importar: OTPM

En cargas largas con Fable 5, el límite más importante suele ser OTPM.

Esto ocurre porque Fable 5 está orientado a tareas de gran alcance, como:

agentes que ejecutan pasos largos,
análisis de documentos extensos,
generación de reportes grandes,
flujos con mucha salida intermedia.

Una generación larga no consume todo el OTPM al inicio. Lo consume de forma sostenida mientras transmite tokens. Si ejecuta varias tareas largas en paralelo, puede alcanzar OTPM antes que RPM.

Dos prácticas recomendadas:

Ajuste max_tokens al tamaño real esperado.
Use streaming para salidas largas.

Ejemplo base con streaming conceptual:

import anthropic

client = anthropic.Anthropic()

with client.messages.stream(
    model="claude-fable-5",
    max_tokens=4096,
    messages=[
        {"role": "user", "content": "Genera un informe técnico detallado."}
    ],
) as stream:
    for text in stream.text_stream:
        print(text, end="")

Si está configurando el modelo por primera vez, esta guía de la API de Claude Fable 5 explica la forma de la solicitud.

Cómo comprobar sus límites reales

No base su implementación únicamente en una tabla publicada. Compruebe sus límites en dos lugares.

1. Consola de Anthropic

En la Consola de Anthropic, revise:

el nivel actual de su organización,
los límites por modelo,
el uso de tokens de entrada y salida,
la tasa de aciertos de caché,
la proximidad a sus límites.

Esto le permite responder antes de escalar tráfico:

¿Tengo margen suficiente o estoy cerca del límite?

2. Encabezados de respuesta de la API

Cada respuesta incluye encabezados anthropic-ratelimit-*.

Los más útiles son:

anthropic-ratelimit-requests-limit
anthropic-ratelimit-requests-remaining

anthropic-ratelimit-input-tokens-limit
anthropic-ratelimit-input-tokens-remaining

anthropic-ratelimit-output-tokens-limit
anthropic-ratelimit-output-tokens-remaining

También hay encabezados *-reset en formato RFC 3339 que indican cuándo se recarga completamente cada cubo.

Puede usarlos para aplicar regulación antes de recibir errores 429.

Ejemplo de lectura de encabezados con una respuesta HTTP directa:

import requests
import os

response = requests.post(
    "https://api.anthropic.com/v1/messages",
    headers={
        "x-api-key": os.environ["ANTHROPIC_API_KEY"],
        "anthropic-version": "2023-06-01",
        "content-type": "application/json",
    },
    json={
        "model": "claude-fable-5",
        "max_tokens": 1024,
        "messages": [
            {"role": "user", "content": "Resume este texto en viñetas."}
        ],
    },
)

print("RPM restante:", response.headers.get("anthropic-ratelimit-requests-remaining"))
print("ITPM restante:", response.headers.get("anthropic-ratelimit-input-tokens-remaining"))
print("OTPM restante:", response.headers.get("anthropic-ratelimit-output-tokens-remaining"))

Cómo manejar errores 429

Un 429 significa que alcanzó uno de los límites.

La respuesta incluye un encabezado importante:

retry-after

Ese valor indica cuántos segundos debe esperar antes de intentar de nuevo. Reintentar antes de ese tiempo normalmente solo genera otro 429.

Usar los reintentos del SDK

El SDK oficial de Anthropic ya reintenta errores 429 y 5xx con retroceso exponencial. Por defecto usa dos reintentos.

Puede aumentar max_retries si tiene una carga por lotes propensa a límites:

import anthropic

client = anthropic.Anthropic()

resilient = client.with_options(max_retries=5)

message = resilient.messages.create(
    model="claude-fable-5",
    max_tokens=4096,
    messages=[
        {
            "role": "user",
            "content": "Redacta un resumen de lanzamiento para el changelog de junio."
        }
    ],
)

print(message.content[0].text)

Capturar RateLimitError manualmente

Si necesita mostrar estado en su interfaz o coordinar una cola, capture la excepción y lea retry-after:

import anthropic

client = anthropic.Anthropic()

try:
    message = client.messages.create(
        model="claude-fable-5",
        max_tokens=4096,
        messages=[
            {"role": "user", "content": "Resume este informe de incidente."}
        ],
    )

except anthropic.RateLimitError as exc:
    wait_seconds = int(exc.response.headers.get("retry-after", "60"))
    print(f"Límite alcanzado. Reintentando después de {wait_seconds}s.")

Use una cola para tráfico irregular

Los reintentos ayudan, pero no sustituyen una buena arquitectura.

Si su tráfico llega en ráfagas, coloque las solicitudes en una cola y procéselas a una velocidad que su nivel pueda absorber.

Un patrón simple:

Productores -> Cola -> Workers con control de tasa -> API de Anthropic

Los workers pueden ajustar su velocidad leyendo:

anthropic-ratelimit-requests-remaining
anthropic-ratelimit-input-tokens-remaining
anthropic-ratelimit-output-tokens-remaining

Esto convierte una pared de errores 429 en una tubería más estable.

Los mismos patrones de prueba y regulación aparecen al trabajar con cualquier API con límites. La guía sobre cómo probar la API de ChatGPT con Apidog aplica ideas similares.

Cómo aumentar sus límites o reducir presión

Cuando alcanza límites de forma constante, tiene dos opciones:

Conseguir más margen.
Consumir menos margen.

Opción 1: avanzar de nivel

A medida que compra más créditos y aumenta el uso acumulado, su organización sube de nivel automáticamente.

Cada nivel aumenta:

RPM,
ITPM,
OTPM,
límites de gasto.

Si necesita límites personalizados, use la página de límites en la Consola para contactar con ventas. El Nivel Prioritario y la facturación mensual están pensados para cargas comprometidas o de alto volumen.

Opción 2: reducir consumo de tokens

Estas optimizaciones suelen tener impacto inmediato.

Use la API de Batches

Para trabajos que no son sensibles a la latencia, use la API de Batches.

Ventajas:

procesamiento asíncrono,
costo aproximado del 50% del estándar,
grupo de límites separado,
evita que trabajos masivos compitan con tráfico interactivo.

Active caché de prompts

Si reutiliza contexto, active caching.

Casos típicos:

prompt de sistema grande,
instrucciones fijas,
documentos de referencia,
definiciones de herramientas.

Luego confirme en la página de uso que la tasa de aciertos de caché aumenta.

Ajuste `max_tokens`

No hay penalización directa por establecer un max_tokens alto, pero permite que una respuesta se extienda más y consuma OTPM durante más tiempo.

Use un límite razonable para cada tipo de tarea:

# Resumen corto
max_tokens = 512

# Informe técnico
max_tokens = 4096

# Generación larga controlada
max_tokens = 8192

Transmita salidas largas

El streaming ayuda a:

evitar timeouts,
mostrar progreso al usuario,
observar la generación en tiempo real,
controlar mejor tareas largas.

Para agentes y cargas de larga duración, este recorrido sobre el agente Claude Fable 5 muestra cómo encajan estas prácticas.

Si está comparando clases de modelos, consulte también la guía de la API de Claude Opus 4.8 y las notas de precios de Opus 4.8.

Supervise su uso de Fable 5 con Apidog

La forma más directa de entender sus límites es observar solicitudes reales.

Con Apidog, puede crear una solicitud contra la API de Mensajes, enviarla e inspeccionar:

encabezados anthropic-ratelimit-*,
objeto usage,
tokens de entrada,
tokens de salida,
tokens leídos desde caché.

Esto le permite ver cuánto margen queda antes de alcanzar ITPM u OTPM.

Un flujo práctico:

Cree una solicitud Fable 5 en Apidog.
Envíe un prompt representativo.
Lea anthropic-ratelimit-output-tokens-remaining.
Revise usage.output_tokens.
Active caché de prompt.
Envíe la misma solicitud de nuevo.
Confirme que usage.cache_read_input_tokens aumenta.
Verifique que el consumo de ITPM se reduce.

También puede guardar la solicitud, variar max_tokens y comprobar que OTPM sigue la salida real, no el límite configurado.

Descargue Apidog si quiere ejecutar el experimento con su propia clave. Si su equipo ya usa Apidog para diseño y pruebas de API, puede integrar esta supervisión en el mismo espacio de trabajo.

DEV Community

Claude Fable 5 Límites de Tasa Explicados

TL;DR

Cómo funcionan los límites de velocidad de Anthropic

Tipos de límites

1. Solicitudes por minuto: RPM

2. Tokens de entrada por minuto: ITPM

3. Tokens de salida por minuto: OTPM

Límites por organización y por clase de modelo

Cómo avanzan los niveles

Qué significa esto para Claude Fable 5

El límite que más suele importar: OTPM

Cómo comprobar sus límites reales

1. Consola de Anthropic

2. Encabezados de respuesta de la API

Cómo manejar errores 429

Usar los reintentos del SDK

Capturar RateLimitError manualmente

Use una cola para tráfico irregular

Cómo aumentar sus límites o reducir presión

Opción 1: avanzar de nivel

Opción 2: reducir consumo de tokens

Use la API de Batches

Active caché de prompts

Ajuste `max_tokens`

Transmita salidas largas

Supervise su uso de Fable 5 con Apidog

Top comments (0)

TL;DR

Cómo funcionan los límites de velocidad de Anthropic

Tipos de límites

1. Solicitudes por minuto: RPM

2. Tokens de entrada por minuto: ITPM

3. Tokens de salida por minuto: OTPM

Límites por organización y por clase de modelo

Cómo avanzan los niveles

Qué significa esto para Claude Fable 5

El límite que más suele importar: OTPM

Cómo comprobar sus límites reales

1. Consola de Anthropic

2. Encabezados de respuesta de la API

Cómo manejar errores 429

Usar los reintentos del SDK

Capturar RateLimitError manualmente

Use una cola para tráfico irregular

Cómo aumentar sus límites o reducir presión

Opción 1: avanzar de nivel

Opción 2: reducir consumo de tokens

Use la API de Batches

Active caché de prompts

Ajuste max_tokens

Transmita salidas largas

Supervise su uso de Fable 5 con Apidog

Ajuste `max_tokens`