Por qué migré mi asistente de IA de Claude a Qwen y Gemma en una mañana
El viernes 3 de abril a las 7:47 PM me llegó este correo de Anthropic:
«Starting April 4 at 12pm PT / 8pm BST, you'll no longer be able to use your Claude subscription limits for third-party harnesses including OpenClaw.»
Tenía menos de 17 horas para decidir qué hacer.
No era que mi asistente dejara de funcionar completamente — Nyx (mi IA personal corriendo en OpenClaw) podía seguir usando Claude, pero ahora requería «extra usage»: pagos separados de la suscripción. Tenía una suscripción Max de Anthropic ($100-$200/mes). Esa plata ya no cubriría el uso en herramientas de terceros.
Decidí hacer algo que venía postergando: construir un stack de modelos diversificado y más inteligente.
El correo que lo cambió todo
El email oficial de Anthropic explicaba tres cosas:
1. El cambio: A partir del 4 de abril, las suscripciones Pro y Max no cubren uso en herramientas externas como OpenClaw. Siguen funcionando, pero requieren «extra usage» (pay-as-you-go separado).
2. La excepción: La suscripción sí cubre los productos propios de Anthropic: Claude Code y Claude Cowork.
3. El incentivo para suavizar el golpe: Anthropic ofrece un crédito único equivalente al precio mensual de tu suscripción (canjeable hasta el 17 de abril) y descuentos de hasta 30% al precomprar bundles de extra usage.
La razón técnica, según Boris Cherny (Head of Claude Code en Anthropic): las herramientas de terceros no están optimizadas para el cache de prompts que usa Claude internamente, generando un costo desproporcionado para Anthropic. Sus propias herramientas reciclan texto procesado y son mucho más eficientes en compute.
No fue una decisión sorpresiva dentro de la compañía — llegó en un momento donde también habían empezado a limitar sesiones cada 5 horas para el 7% de usuarios con más uso intensivo.
Mi situación concreta
Nyx es mi asistente de IA personal que corre en mi propio servidor (VPS). Gestiona contenido, automatizaciones, análisis, calendario de publicaciones y decenas de tareas al día. Hasta el viernes, usaba Claude Sonnet 4.6 como modelo por defecto, cubierto por mi suscripción Max.
Con el cambio, seguir igual significaba pagar por tokens de API encima de la suscripción. Según estimaciones de la comunidad, un agente corriendo activamente todo el día puede quemar entre $50 y $200 en tokens al mes solo en API. Inaceptable cuando ya estás pagando $100+ en suscripción.
La alternativa obvia: OpenRouter.
Cómo migré en una mañana
Paso 1: Audité los modelos disponibles con auth real
Lo primero fue ver qué tenía disponible realmente, no teóricamente:
- Anthropic (token directo) → Sonnet, Opus, Haiku — disponibles, pero ahora pay-as-you-go
- Google Antigravity (OAuth) → Gemini 3.1 Pro High, Gemini 3 Flash — descartados por historial de timeouts que ya habíamos tenido meses atrás
- OpenRouter (API key) → Docenas de modelos de múltiples proveedores, pago por uso real
- Groq (token) → Modelos rápidos, pero varios IDs desactualizados
Paso 2: Consulté rankings reales en LM Arena
No me fié de benchmarks de marketing. Fui a LM Arena de OpenLM.ai, que agrega millones de votaciones humanas ciegas entre modelos.
Los modelos relevantes para mi caso:
Modelo
Arena Score
Open Source
Costo/1M tokens
Gemini 3.1 Pro High
~1505 🏆
No
OAuth gratis*
Claude Sonnet 4.6
~1460 🥇
No
$3/$15
Gemma 4 31B
1450 🥇
✅ Apache 2.0
$0.14
Qwen3 235B 2507
1418 🥉
✅ Apache 2.0
$0.07
DeepSeek V3 0324
1377 🪙
✅ MIT
$0.20
*Gemini gratis vía OAuth, pero historial de timeouts en producción.
Paso 3: Probé latencia real — no benchmarks de papel
Aquí vino la sorpresa más importante. Usé OpenClaw para lanzar subagentes con cada modelo y medir tiempo de respuesta real en frío:
Modelo
Latencia real
DeepSeek V3 0324
257ms ✅
Llama 4 Maverick
346ms ✅
Qwen3 235B
638ms ✅
Mistral Small 3.1
460ms ✅
Gemma 4 31B
6.2 segundos ❌
Gemma 4 tiene el mejor Arena score de los open-source accesibles, pero 6 segundos de latencia en frío hace la conversación interactiva imposible. Quedó relegado a tareas batch offline (análisis SEO, procesamiento masivo).
Paso 4: El stack final
Después del análisis, este fue el resultado:
Modelo principal: Qwen3 235B A22B 2507 vía OpenRouter
- 638ms de latencia
- Arena score 1418 (comparable con Claude Sonnet 4.5)
- $0.07 por millón de tokens — ~42 veces más barato que Sonnet
- Contexto de 262k tokens
Por agente especializado:
Agente
Modelo
Por qué
Principal (Nyx)
Qwen3 235B
Mejor calidad/costo/latencia
Contenido y cursos
Qwen3 235B
Excelente español, razonamiento sólido
SEO y análisis batch
Gemma 4 31B
Mejor score open-source, latencia aceptable
n8n y código
DeepSeek V3
El más rápido (257ms), excelente en código
Comentarios sociales
Mistral Small 3.1
Rapidísimo, $0.03/M — suficiente para esta tarea
Exploración API
Llama 4 Maverick
1 millón de tokens de contexto
Compaction de sesiones
Mistral Small 3.1
Barato para resumir contexto
Claude (Sonnet/Opus/Haiku) quedó disponible on-demand para cuando necesito calidad puntual máxima. Pero ya no es el default de nada.
Lo que aprendí de esto
1. La dependencia de un solo proveedor es un riesgo operacional.
El correo llegó el viernes a las 8 PM con vigencia el sábado al mediodía. Menos de 17 horas de aviso para un cambio que afecta a todos los usuarios de herramientas como OpenClaw. Si no hubiera tenido la infraestructura preparada, ese sábado Nyx simplemente no funcionaba.
2. El ecosistema open-source ya es competitivo de verdad.
Gemma 4 31B (Apache 2.0) tiene Arena score 1450 — supera a muchos modelos propietarios de hace 6 meses. Qwen3 235B está a tiro de piedra de Claude Sonnet a menos de una décima parte del costo. No es lo mismo que hace un año.
3. Un stack diversificado es más robusto y más barato.
Usar el modelo correcto para cada tarea no solo reduce costos — también mejora resultados. El modelo más caro no es el mejor para todo. Mistral Small para comentarios de 3 oraciones funciona igual de bien que Sonnet y cuesta 500x menos.
4. La latencia importa tanto como el score.
Arena score 1450 de Gemma 4 vs 1418 de Qwen3 parecen similares en papel. Pero 6 segundos vs 638ms es la diferencia entre un asistente usable y uno que no lo es para conversación interactiva.
5. Este cambio de Anthropic era predecible.
Cuando una empresa ofrece uso «ilimitado» a $20-200/mes y tú lo estás usando para correr un agente autónomo todo el día, en algún momento la economía no cierra. Anthropic eligió proteger sus márgenes en usuarios directos en lugar de subsidiar uso en terceros. Es razonable desde su perspectiva.
¿Qué deberías hacer si te afecta esto?
Si tienes un asistente de IA, agente de automatización, o cualquier herramienta que usa Claude vía suscripción + terceros, tienes tres caminos:
- Activar «extra usage» en tu cuenta Anthropic — es lo más simple, pero suma otro costo variable sobre tu suscripción fija. Aprovecha el crédito gratuito de Anthropic (válido hasta el 17 de abril).
- Migrar a OpenRouter — acceso a decenas de modelos, pago real por uso. Ningún costo fijo mensual. Riesgo: debes elegir bien el modelo para cada caso.
- Usar la API directa de Anthropic — eliminas la suscripción y pagas por token. Más predecible si tienes uso variable, más caro si tienes uso alto y constante.
La opción que elegí fue la 2, complementada con la 1 para cuando necesito lo mejor disponible.
Si quieres discutir cómo implementar esto en tu propio setup, en mi comunidad Cágala, Aprende, Repite hay gente haciendo exactamente este tipo de experimentos.
Este post fue redactado con Qwen3 235B — el mismo modelo que reemplazó a Claude como default de Nyx. Tomó el sábado en la mañana migrarlo todo. Irónicamente, fue la mejor excusa para construir el stack que debería haber tenido desde hace meses.
Publicado originalmente en cristiantala.com
Top comments (0)