Cristian Tala S.

Posted on Apr 4 • Originally published at cristiantala.com

Por qué migré mi asistente de IA de Claude a Qwen y Gemma esta mañana

#ia #automatizacion #opensource #tutorial

Por qué migré mi asistente de IA de Claude a Qwen y Gemma en una mañana

El viernes 3 de abril a las 7:47 PM me llegó este correo de Anthropic:

«Starting April 4 at 12pm PT / 8pm BST, you'll no longer be able to use your Claude subscription limits for third-party harnesses including OpenClaw.»

Tenía menos de 17 horas para decidir qué hacer.

No era que mi asistente dejara de funcionar completamente — Nyx (mi IA personal corriendo en OpenClaw) podía seguir usando Claude, pero ahora requería «extra usage»: pagos separados de la suscripción. Tenía una suscripción Max de Anthropic ($100-$200/mes). Esa plata ya no cubriría el uso en herramientas de terceros.

Decidí hacer algo que venía postergando: construir un stack de modelos diversificado y más inteligente.

El correo que lo cambió todo

El email oficial de Anthropic explicaba tres cosas:

1. El cambio: A partir del 4 de abril, las suscripciones Pro y Max no cubren uso en herramientas externas como OpenClaw. Siguen funcionando, pero requieren «extra usage» (pay-as-you-go separado).

2. La excepción: La suscripción sí cubre los productos propios de Anthropic: Claude Code y Claude Cowork.

3. El incentivo para suavizar el golpe: Anthropic ofrece un crédito único equivalente al precio mensual de tu suscripción (canjeable hasta el 17 de abril) y descuentos de hasta 30% al precomprar bundles de extra usage.

La razón técnica, según Boris Cherny (Head of Claude Code en Anthropic): las herramientas de terceros no están optimizadas para el cache de prompts que usa Claude internamente, generando un costo desproporcionado para Anthropic. Sus propias herramientas reciclan texto procesado y son mucho más eficientes en compute.

No fue una decisión sorpresiva dentro de la compañía — llegó en un momento donde también habían empezado a limitar sesiones cada 5 horas para el 7% de usuarios con más uso intensivo.

Mi situación concreta

Nyx es mi asistente de IA personal que corre en mi propio servidor (VPS). Gestiona contenido, automatizaciones, análisis, calendario de publicaciones y decenas de tareas al día. Hasta el viernes, usaba Claude Sonnet 4.6 como modelo por defecto, cubierto por mi suscripción Max.

Con el cambio, seguir igual significaba pagar por tokens de API encima de la suscripción. Según estimaciones de la comunidad, un agente corriendo activamente todo el día puede quemar entre $50 y $200 en tokens al mes solo en API. Inaceptable cuando ya estás pagando $100+ en suscripción.

La alternativa obvia: OpenRouter.

Cómo migré en una mañana

Paso 1: Audité los modelos disponibles con auth real

Lo primero fue ver qué tenía disponible realmente, no teóricamente:

Anthropic (token directo) → Sonnet, Opus, Haiku — disponibles, pero ahora pay-as-you-go
Google Antigravity (OAuth) → Gemini 3.1 Pro High, Gemini 3 Flash — descartados por historial de timeouts que ya habíamos tenido meses atrás
OpenRouter (API key) → Docenas de modelos de múltiples proveedores, pago por uso real
Groq (token) → Modelos rápidos, pero varios IDs desactualizados

Paso 2: Consulté rankings reales en LM Arena

No me fié de benchmarks de marketing. Fui a LM Arena de OpenLM.ai, que agrega millones de votaciones humanas ciegas entre modelos.

Los modelos relevantes para mi caso:

Modelo
Arena Score
Open Source
Costo/1M tokens

Gemini 3.1 Pro High
~1505 🏆
No
OAuth gratis*

Claude Sonnet 4.6
~1460 🥇
No
$3/$15

Gemma 4 31B
1450 🥇
✅ Apache 2.0
$0.14

Qwen3 235B 2507
1418 🥉
✅ Apache 2.0
$0.07

DeepSeek V3 0324
1377 🪙
✅ MIT
$0.20

*Gemini gratis vía OAuth, pero historial de timeouts en producción.

Paso 3: Probé latencia real — no benchmarks de papel

Aquí vino la sorpresa más importante. Usé OpenClaw para lanzar subagentes con cada modelo y medir tiempo de respuesta real en frío:

Modelo
Latencia real

DeepSeek V3 0324
257ms ✅

Llama 4 Maverick
346ms ✅

Qwen3 235B
638ms ✅

Mistral Small 3.1
460ms ✅

Gemma 4 31B
6.2 segundos ❌

Gemma 4 tiene el mejor Arena score de los open-source accesibles, pero 6 segundos de latencia en frío hace la conversación interactiva imposible. Quedó relegado a tareas batch offline (análisis SEO, procesamiento masivo).

Paso 4: El stack final

Después del análisis, este fue el resultado:

Modelo principal: Qwen3 235B A22B 2507 vía OpenRouter

638ms de latencia
Arena score 1418 (comparable con Claude Sonnet 4.5)
$0.07 por millón de tokens — ~42 veces más barato que Sonnet
Contexto de 262k tokens

Por agente especializado:

Agente
Modelo
Por qué

Principal (Nyx)
Qwen3 235B
Mejor calidad/costo/latencia

Contenido y cursos
Qwen3 235B
Excelente español, razonamiento sólido

SEO y análisis batch
Gemma 4 31B
Mejor score open-source, latencia aceptable

n8n y código
DeepSeek V3
El más rápido (257ms), excelente en código

Comentarios sociales
Mistral Small 3.1
Rapidísimo, $0.03/M — suficiente para esta tarea

Exploración API
Llama 4 Maverick
1 millón de tokens de contexto

Compaction de sesiones
Mistral Small 3.1
Barato para resumir contexto

Claude (Sonnet/Opus/Haiku) quedó disponible on-demand para cuando necesito calidad puntual máxima. Pero ya no es el default de nada.

Lo que aprendí de esto

1. La dependencia de un solo proveedor es un riesgo operacional.
El correo llegó el viernes a las 8 PM con vigencia el sábado al mediodía. Menos de 17 horas de aviso para un cambio que afecta a todos los usuarios de herramientas como OpenClaw. Si no hubiera tenido la infraestructura preparada, ese sábado Nyx simplemente no funcionaba.
2. El ecosistema open-source ya es competitivo de verdad.
Gemma 4 31B (Apache 2.0) tiene Arena score 1450 — supera a muchos modelos propietarios de hace 6 meses. Qwen3 235B está a tiro de piedra de Claude Sonnet a menos de una décima parte del costo. No es lo mismo que hace un año.
3. Un stack diversificado es más robusto y más barato.
Usar el modelo correcto para cada tarea no solo reduce costos — también mejora resultados. El modelo más caro no es el mejor para todo. Mistral Small para comentarios de 3 oraciones funciona igual de bien que Sonnet y cuesta 500x menos.
4. La latencia importa tanto como el score.
Arena score 1450 de Gemma 4 vs 1418 de Qwen3 parecen similares en papel. Pero 6 segundos vs 638ms es la diferencia entre un asistente usable y uno que no lo es para conversación interactiva.
5. Este cambio de Anthropic era predecible.
Cuando una empresa ofrece uso «ilimitado» a $20-200/mes y tú lo estás usando para correr un agente autónomo todo el día, en algún momento la economía no cierra. Anthropic eligió proteger sus márgenes en usuarios directos en lugar de subsidiar uso en terceros. Es razonable desde su perspectiva.

¿Qué deberías hacer si te afecta esto?

Si tienes un asistente de IA, agente de automatización, o cualquier herramienta que usa Claude vía suscripción + terceros, tienes tres caminos:

Activar «extra usage» en tu cuenta Anthropic — es lo más simple, pero suma otro costo variable sobre tu suscripción fija. Aprovecha el crédito gratuito de Anthropic (válido hasta el 17 de abril).
Migrar a OpenRouter — acceso a decenas de modelos, pago real por uso. Ningún costo fijo mensual. Riesgo: debes elegir bien el modelo para cada caso.
Usar la API directa de Anthropic — eliminas la suscripción y pagas por token. Más predecible si tienes uso variable, más caro si tienes uso alto y constante.

La opción que elegí fue la 2, complementada con la 1 para cuando necesito lo mejor disponible.

Si quieres discutir cómo implementar esto en tu propio setup, en mi comunidad Cágala, Aprende, Repite hay gente haciendo exactamente este tipo de experimentos.

Este post fue redactado con Qwen3 235B — el mismo modelo que reemplazó a Claude como default de Nyx. Tomó el sábado en la mañana migrarlo todo. Irónicamente, fue la mejor excusa para construir el stack que debería haber tenido desde hace meses.

Publicado originalmente en cristiantala.com

DEV Community