Roobia

Posted on Jul 2 • Originally published at apidog.com

Cuando tu modelo de IA falla: Diseño de recuperación ante fallos para APIs de IA

El 12 de junio de 2026, los controles de exportación de EE. UU. obligaron a Anthropic a desconectar Claude Fable 5 casi sin aviso, y el modelo permaneció inactivo hasta que volvió el 1 de julio. Los equipos que habían hardcodeado el ID del modelo pasaron diecinueve días apagando incendios; los equipos con una cadena de conmutación por error cambiaron una configuración y siguieron trabajando.

Prueba Apidog hoy

La lección no es solo “un modelo se cayó”. La lección es arquitectónica: la disponibilidad de un LLM no es una constante. Un modelo es un producto sujeto a regulación, límites de capacidad, deprecaciones y decisiones de seguridad. Si su aplicación depende de un único ID de modelo, ese ID es un punto único de fallo. Esta guía muestra cómo diseñar una conmutación por error para APIs de IA de forma práctica: configuración, enrutamiento, pruebas de contrato y operación.

Por qué desaparecen los modelos

Los modelos pueden dejar de estar disponibles por varias razones:

Regulación. La suspensión de Fable 5 vino de controles de exportación, no de un fallo técnico. Los eventos legales no siguen calendarios de deprecación ni garantizan avisos de 90 días. Así se vio la interrupción desde fuera mientras ocurría.
Incidentes del proveedor. Incluso los principales proveedores tienen interrupciones de varias horas. Su SLA con sus clientes no se pausa mientras el proveedor se recupera.
Deprecación. Los proveedores retiran modelos según calendarios publicados. OpenAI mantiene una página de deprecaciones, y Anthropic ha retirado versiones anteriores de Claude de forma similar.
Capacidad. En lanzamientos o picos de tráfico, los proveedores pueden limitar carga. Sus solicitudes empiezan a devolver 429 o 529 aunque el modelo siga existiendo.
Reversiones de seguridad. Un proveedor puede restringir o retirar un modelo tras detectar un problema posterior al lanzamiento. A veces ocurre de forma silenciosa o por cuenta.

El síntoma operativo es el mismo: el ID de modelo que usa su código deja de responder correctamente. Por eso la conmutación por error debe diseñarse antes del incidente.

La jerarquía de conmutación por error

No trate la conmutación por error como una única ruta. Diseñe tres niveles.

Nivel 1: reserva del mismo proveedor

Cambie a un modelo hermano del mismo proveedor, por ejemplo:

Fable 5 -> Opus 4.8 -> Sonnet 4.6

Ventajas:

mismo SDK;
misma autenticación;
formato de respuesta similar;
cambio rápido.

Anthropic incluso admite este patrón en el servidor mediante un parámetro de reservas, que reintenta una solicitud rechazada en un modelo sustituto dentro de la misma llamada API. Antes de necesitarlo, compare calidad, coste y límites. Una comparación entre Fable 5 y Opus 4.8 es exactamente el tipo de trabajo que evita decisiones improvisadas a las 3 a.m.

Nivel 2: reserva entre proveedores

Cambie a otro proveedor completo.

Esto protege contra:

caídas de todo el proveedor;
suspensiones de cuenta;
restricciones regionales;
límites de capacidad globales.

El coste es mayor:

segundo SDK;
segunda facturación;
segunda ruta de autenticación;
diferencias de comportamiento en prompts, rechazos y formato.

Nivel 3: modo degradado

Sirva algo útil sin depender de un modelo puntero:

respuestas en caché para consultas repetidas;
modelo local pequeño para clasificación;
motor de reglas;
funcionalidad desactivada con mensaje claro.

Es aceptable que la función sea menos potente durante un incidente. No es aceptable que toda la aplicación se rompa.

Nivel	Latencia para el cambio	Caída de calidad	Costo de ingeniería
Reserva del mismo proveedor	Segundos a minutos; cambio de configuración o reintento automático	Pequeña a moderada; misma familia de modelos	Bajo; mismo SDK, autenticación y formato de respuesta
Reserva entre proveedores	Minutos a horas; requiere lógica de enrutamiento y prompts probados	Moderada; distintos tokenizadores, formatos y comportamiento de rechazo	Medio a alto; segunda integración, facturación y monitoreo
Modo degradado	Instantáneo una vez implementado	Grande, pero predecible	Medio; caché, modelo local o feature flags

Para la mayoría de equipos:

implemente el nivel 1 este trimestre;
mantenga un modo degradado básico;
agregue el nivel 2 solo si el riesgo económico justifica una segunda integración.

También debe definir cuándo activar cada salto. Ejemplo de política:

404 model_not_found: fallar inmediatamente al siguiente modelo;
rechazo del modelo: reintentar una vez con el siguiente modelo;
429: aplicar backoff antes de conmutar;
3 timeouts consecutivos: abrir un circuit breaker para ese modelo.

Codifique estas reglas en la capa de enrutamiento. No las deje para una decisión manual durante el incidente.

Diseño práctico: cómo abaratar la conmutación por error

1. Mueva los IDs de modelo a configuración

Ejecute esto en su repositorio:

grep -R "claude-fable-5" .

Si el ID aparece en el código de aplicación, necesita una implementación para cambiar de modelo. Eso es demasiado lento.

Use una configuración por ruta:

# config/model-routes.yaml
routes:
  chat-assist:
    primary: claude-fable-5
    fallbacks:
      - claude-opus-4-8
      - claude-sonnet-4-6
    degraded_mode: cached_answers
    max_output_tokens: 8192
    timeout_seconds: 120

  ticket-classifier:
    primary: claude-sonnet-4-6
    fallbacks:
      - claude-haiku-4-5
    degraded_mode: rules_engine
    max_output_tokens: 1024
    timeout_seconds: 30

Así el cambio de modelo es un cambio de configuración, no un despliegue urgente.

2. Centralice el enrutamiento

Solo un módulo debe decidir qué modelo atiende una solicitud. El resto de la aplicación debe pedir una capacidad, no un modelo concreto.

Ejemplo mínimo en Python:

MODEL_CHAIN = [
    "claude-fable-5",
    "claude-opus-4-8",
    "claude-sonnet-4-6",
]

def complete(prompt: str) -> str:
    last_error = None

    for model in MODEL_CHAIN:
        try:
            response = client.messages.create(
                model=model,
                max_tokens=8192,
                messages=[
                    {"role": "user", "content": prompt}
                ],
            )

            if response.stop_reason == "refusal":
                last_error = RefusalError(model)
                continue

            return response.content[0].text

        except (
            anthropic.NotFoundError,
            anthropic.RateLimitError,
            anthropic.APIStatusError,
        ) as err:
            last_error = err
            continue

    raise AllModelsUnavailable(MODEL_CHAIN) from last_error

En producción añada:

timeouts por modelo;
circuit breakers;
métricas por intento;
logs con route, model, fallback_index y error_type.

El principio se mantiene: los llamadores solicitan una finalización, no eligen el modelo.

3. Escriba prompts compatibles con varios niveles de capacidad

Un prompt ajustado a las peculiaridades de un único modelo convierte la conmutación por error en una ilusión.

Use este patrón:

prompts/
  chat_assist/
    base.md
    claude-fable-5.overlay.md
    claude-opus-4-8.overlay.md
    claude-sonnet-4-6.overlay.md

base.md: instrucciones esenciales que todos los modelos deben cumplir.
overlay: ajustes opcionales por modelo.

Pruebe el prompt base en el modelo más débil de la cadena, no solo en el primario. Los modelos más nuevos pueden funcionar bien con prompts breves y orientados a objetivos, mientras que los respaldos más pequeños suelen necesitar estructura más explícita.

4. Haga portátiles los parámetros de la solicitud

Los parámetros también pueden romper una conmutación por error. Un modelo puede aceptar una configuración que otro rechaza con 400.

Guarde parámetros por modelo:

models:
  claude-fable-5:
    max_output_tokens: 8192
    timeout_seconds: 120
    temperature: 0.2

  claude-opus-4-8:
    max_output_tokens: 8192
    timeout_seconds: 120
    temperature: 0.2

  claude-sonnet-4-6:
    max_output_tokens: 4096
    timeout_seconds: 90
    temperature: 0.2

La capa de enrutamiento debe aplicar los parámetros correctos al enviar cada solicitud.

5. Normalice respuestas en su propio formato

No propague objetos específicos del proveedor por toda la aplicación. Normalice en el borde.

Ejemplo:

@dataclass
class LLMResult:
    text: str
    stop_reason: str
    model: str
    input_tokens: int
    output_tokens: int

Mapee cada proveedor a esa estructura:

def normalize_anthropic_response(response, model: str) -> LLMResult:
    return LLMResult(
        text=response.content[0].text,
        stop_reason=map_stop_reason(response.stop_reason),
        model=model,
        input_tokens=response.usage.input_tokens,
        output_tokens=response.usage.output_tokens,
    )

Así cambiar de proveedor no obliga a modificar doce partes del código.

6. Presupueste coste, contexto y salida máxima

Los modelos de respaldo pueden tener:

distinto precio por token;
distinta ventana de contexto;
menor salida máxima;
distinta latencia.

Pasar de Fable 5 a Opus 4.8 reduce el coste por token aproximadamente a la mitad, mientras que Sonnet 4.6 vuelve a ser más barato pero con límites de salida más bajos. Verifique siempre la descripción general actual del modelo en lugar de confiar en números recordados.

Su configuración debe incluir límites por modelo para evitar respuestas truncadas o facturas inesperadas.

Pruebas de contrato para la cadena de respaldo

Una ruta de fallback que nunca se prueba probablemente fallará cuando la necesite.

Trate la cadena de modelos como un contrato de API. Mantenga un escenario en Apidog que ejecute sus prompts críticos contra cada modelo, en CI y de forma programada.

Valide al menos tres cosas.

1. Esquema

Si espera JSON, valídelo.

Ejemplo de contrato:

{
  "type": "object",
  "required": ["category", "confidence", "summary"],
  "properties": {
    "category": {
      "type": "string"
    },
    "confidence": {
      "type": "number",
      "minimum": 0,
      "maximum": 1
    },
    "summary": {
      "type": "string"
    }
  }
}

Esto detecta errores sutiles:

JSON escapado de forma diferente;
campos omitidos;
tipos incorrectos;
texto adicional alrededor del objeto.

2. Latencia

Defina presupuestos por modelo:

latency_budget:
  claude-fable-5:
    p95_ms: 12000
  claude-opus-4-8:
    p95_ms: 15000
  claude-sonnet-4-6:
    p95_ms: 10000

Un respaldo que responde en 40 segundos puede estar “disponible”, pero sigue siendo una degradación operativa.

3. Señales mecánicas de calidad

No necesita evaluar creatividad en CI. Necesita detectar que el modelo dejó de cumplir la tarea.

Compruebe:

salida no vacía;
idioma correcto;
presencia de elementos requeridos;
ausencia de texto fuera del formato esperado;
tasa de rechazo cercana a la línea base.

Use un entorno de Apidog por modelo o proveedor. Mantenga como variables:

URL del endpoint;
clave API;
ID del modelo;
parámetros de generación.

Así el mismo escenario se ejecuta contra:

claude-fable-5
claude-opus-4-8
claude-sonnet-4-6

Agregar un cuarto modelo debería significar agregar un entorno, no reescribir pruebas.

Elija bien el conjunto de prompts. No necesita cientos de casos. Necesita los 10 o 20 que representan producción:

el contexto más largo que envía;
la salida estructurada más estricta;
el caso que una vez rompió su parser;
un prompt cercano al límite sensible de su dominio;
ejemplos frecuentes de usuarios reales, anonimizados si corresponde.

Versione esta suite junto con sus prompts. Cuando producción sorprenda al equipo, agregue ese caso a la suite.

Durante una interrupción también puede apuntar un entorno a un servidor simulado que devuelva respuestas grabadas. Apidog puede generar esa simulación desde la misma especificación de API que usan sus pruebas, por lo que el pipeline puede seguir validando todo lo posterior al modelo aunque el proveedor esté caído.

El 12 de junio, la diferencia entre equipos tranquilos y equipos frenéticos fue esa: algunos tenían evidencia nocturna de que la ruta a Opus 4.8 producía salidas válidas. Otros solo tenían esperanza.

Preparación operativa

La arquitectura permite conmutar. Las operaciones permiten hacerlo rápido y sin improvisación.

1. Pruebe cada modelo de la cadena

No pruebe solo el primario. Ejecute un prompt sintético programado contra cada modelo, separado del tráfico real.

Las páginas de estado como status.anthropic.com son útiles, pero describen el estado general del proveedor. No garantizan que su cuenta, región o límite de velocidad funcionen.

Su propia sonda suele fallar primero.

2. Alerta por señales específicas de modelo

No alerte solo por 5xx.

Incluya:

aumento de rechazos;
404 model_not_found;
429 rate_limit;
529 overloaded;
timeouts;
aumento de latencia p95;
caída de respuestas válidas según contrato.

3. Escriba el plan de transición antes del incidente

Documente:

quién decide conmutar;
qué configuración se cambia;
cómo se revierte;
qué mensaje recibe soporte;
qué se comunica a clientes;
qué paneles se monitorean durante la primera hora;
qué métrica determina si la conmutación fue exitosa.

Durante la interrupción de Fable 5, los equipos sin plan perdieron más tiempo decidiendo que ejecutando.

4. Prepare el regreso del modelo primario

Cuando el primario vuelva, no devuelva el 100% del tráfico de golpe.

Use un canary:

1% -> 5% -> 25% -> 50% -> 100%

En cada paso compare:

tasa de rechazo;
latencia;
coste;
errores de contrato;
métricas de calidad;
tickets de soporte.

La mecánica se explica en cómo volver a la API de Fable 5, y el patrón aplica a cualquier primario que regrese.

5. Ensaye la conmutación

Una vez por trimestre, fuerce un fallback:

en staging; o
en producción para un porcentaje pequeño si su tolerancia al riesgo lo permite.

El simulacro encontrará problemas como:

clave API caducada;
cuenta de respaldo sin límite suficiente;
dashboard inexistente;
variable de entorno renombrada;
prompt incompatible con el respaldo;
coste mayor al previsto.

Todo eso es más barato de descubrir un martes tranquilo que durante una caída real.

Qué enseña específicamente el episodio de Fable 5

El regreso del 1 de julio tuvo un detalle importante: Anthropic redesplegó Fable 5 con un clasificador de seguridad reentrenado.

Mismo ID de modelo. Misma superficie de API. Pero no necesariamente el mismo comportamiento byte a byte.

Eso significa:

los umbrales de rechazo pueden moverse;
prompts que funcionaban antes pueden comportarse diferente;
algunos rechazos anteriores pueden desaparecer;
ciertas salidas pueden cambiar de forma o tono.

La regla práctica es:

Vuelva a probar al regresar. No simplemente vuelva a habilitar.

Trate cualquier modelo que vuelve de una ausencia como una nueva versión. Ejecute toda la suite de contratos. Compare rechazo y calidad contra las líneas base previas a la interrupción, no solo contra el respaldo. Luego haga canary.

También hay una lección de producto: diecinueve días son suficientes para que el modelo de respaldo se convierta en la nueva línea base de facto. Los usuarios se adaptan. Los equipos ajustan prompts. Volver al primario no es solo un cambio técnico; puede ser un cambio perceptible en el producto.

Preguntas frecuentes

¿Es suficiente una reserva del mismo proveedor o necesito un segundo proveedor?

Empiece con el mismo proveedor. Cubre deprecaciones, incidentes de capacidad, reversiones de seguridad y suspensiones específicas del modelo con mucho menos coste de ingeniería. Funciones como las reservas del lado del servidor de Anthropic reducen aún más el esfuerzo.

Agregue un segundo proveedor cuando una caída total del proveedor o un evento de cuenta le costaría más que mantener otra integración. El modo degradado conviene en ambos casos.

¿Los usuarios notarán el cambio a un modelo más pequeño?

Depende de la tarea.

Para extracción, clasificación y transformaciones estructuradas, un modelo más pequeño bien instruido puede ser suficiente. Para razonamiento largo o generación compleja, la diferencia suele notarse.

Mida con su propio tráfico. Puntos de referencia como la comparación entre Fable 5 y Opus 4.8 ayudan a empezar, pero su suite de prompts es la fuente principal.

También puede reducir el impacto con una interfaz honesta:

Estamos operando en modo degradado. Las respuestas pueden ser más breves temporalmente.

¿Con qué frecuencia debo probar la ruta de conmutación por error?

Como mínimo:

diariamente en un job programado;
en CI ante cambios de prompts;
en CI ante cambios de configuración de modelos;
inmediatamente después de anuncios del proveedor;
durante simulacros trimestrales.

El coste de ejecutar sus 20 prompts principales contra tres modelos es pequeño frente al coste de descubrir un fallback roto durante una interrupción.

La disponibilidad de modelos será menos predecible, no más: regulación más estricta, ciclos de lanzamiento más rápidos, deprecaciones frecuentes y capacidad variable. Los equipos que sobrevivan al próximo momento Fable 5 serán los que trataron el modelo como un componente reemplazable con una pieza de repuesto probada.

El trabajo cabe en tres piezas: un archivo de configuración, una capa de enrutamiento y una suite de contratos que se ejecuta cada noche. Descargue Apidog y conecte su cadena de respaldo a una prueba programada hoy; la próxima interrupción es cuestión de cuándo.

DEV Community