DEV Community: Cristian Tala S.

Cómo usar Claude Code con cualquier LLM (Guía 2026)

Cristian Tala S. — Wed, 29 Apr 2026 20:32:03 +0000

Hace unos días me encontré con un problema que me tiene harto. Llevo meses usando Claude Code, pero nunca me alcanzó. Partí con la suscripción Max de $100 al mes, luego salté a la de $200 — la más cara que existe — y ni así. O se me acaba la cuota a mitad de mes, o los servidores de Anthropic están caídos, o noto que las respuestas cada vez son más genéricas. Como si al saturarse la plataforma, el modelo se estuviera volviendo más tonto.

Y ahí me di cuenta de algo: estoy pagando $200 al mes (la suscripción más cara que existe) por un servicio que me falla más de lo que funciona.

Por eso empecé a buscar alternativas. Y lo que encontré me cambió la forma en que trabajo con IA.

Pero acá viene la parte que casi nadie sabe: Claude Code no es un modelo. Es una interfaz. Y esa interfaz se puede conectar a casi cualquier proveedor de LLM que exista.

No te estoy hablando de hackear nada ni de hacer algo ilegal. Te estoy hablando de una funcionalidad que el propio Claude Code soporta: cambiar el ANTHROPIC_BASE_URL para apuntar a otro proveedor con endpoint compatible. Y cuando hice eso, descubrí algo que me voló la cabeza.

Lo que nadie te dice sobre Claude Code

Claude Code es una CLI (command-line interface). Envía requests a una API que sigue el formato de Anthropic. Pero ese formato no es exclusivo de Anthropic.

Proveedores como Z.ai (GLM), Xiaomi (MiMo), Moonshot (Kimi), DeepSeek, y muchos otros exponen endpoints que son Anthropic-compatibles. Claude Code envía un request, el proveedor responde, y todo funciona como si nada hubiera cambiado.

En la práctica: clonas una carpeta de configuración, pegas tu API key, y claude arranca usando un modelo que cuesta $6/mes en vez de $200.

¿Suena demasiado bueno? Yo también lo pensé. Por eso hice dos cosas:

Monté un repositorio con workspaces listos — 20+ proveedores configurados, cada uno con su settings.json, instrucciones y troubleshooting. MIT license, úsalo como quieras.
Corrí 7,725 benchmarks con 68 modelos — 91 tests por modelo, 23 suites de evaluación, juez Phi-4 local (Microsoft, 14B, sin conflicto de interés). No tomé la palabra del marketing de ninguno. Medí.

Los resultados me sorprendieron. Y creo que a ti también te van a sorprender.

El dato que incomoda: los modelos más caros son los peores

Antes de pasar a la configuración, necesito que veas algo. Porque sino vas a pensar que te estoy vendiendo humo.

Corrí 68 modelos a través de 91 tests cada uno — razonamiento, coding, generación de contenido, tool calling, agentes, traducción, y más. El juez fue Phi-4 de Microsoft corriendo local en Ollama. Cero sesgo comercial.

La correlación entre precio y calidad fue ρ = −0.460 (p = 0.001). Negativa. O sea: los modelos más caros tienden a rendir peor en tests single-turn.

Y en contenido, la correlación es ρ = −0.603 (p < 0.001). Fuerte. El modelo más caro del benchmark, GPT-5.5 a $46.50/1k calls, sacó un score de 6.44. Mientras tanto, Llama 3.1 8B en Groq a $0.14/1k calls sacó 7.66.

55× más barato, 19% mejor.

Esto no es opinión. Es la data que cualquiera puede replicar si clona el benchmark.

¿Por qué pasa esto?

Porque los modelos premium suelen ser «thinking models» — consumen tokens de razonamiento interno antes de responder. En un test single-turn corto, ese razonamiento extra no mejora el resultado pero sí dispara el costo. Kimi K2.6 facturaba ~3,500 tokens de output cuando el texto visible era solo ~700. Un multiplicador de 5× en costo por la misma respuesta.

Además, los modelos económicos modernos (Llama, GPT-OSS, Gemma 4) están tan bien afinados que para la inmensa mayoría de tareas de coding y contenido, la diferencia con los premium es imperceptible en la práctica.

El Top 10 que nadie esperaba

Esto es lo que salió del benchmark v2.4 (29 de abril 2026):

Modelo
Score
$/1k calls
tok/s
Provider

1
Llama 4 Scout 17B
7.67
$0.54
244
Groq

2
Llama 3.1 8B Instant
7.66
$0.14
368
Groq

3
Llama 3.3 70B
7.64
$1.36
238
Groq

4
Mistral Small 4
7.54
$0.94
110
OpenRouter

5
GPT-OSS 20B
7.53
$0.47
633
Groq

6
Gemini 3.1 Flash Lite
7.50
$2.33
148
Google

7
Grok 4.1 Fast
7.50
$0.81
116
xAI

8
GPT-OSS 120B
7.41
$0.00
75
Ollama Cloud

9
Devstral Small
7.35
$0.48
147
OpenRouter

10
MiMo V2.5 (Xiaomi)
7.32
$0.13
79
Xiaomi

8 de 10 son open-source. Los 4 modelos en Groq directo tienen más de 200 tokens/segundo, score arriba de 7.5 y cuestan menos de $1.50 por 1k llamadas. Esa combinación no existe en proveedores cerrados.

Y para el que se lo pregunta: sí, Claude Opus 4.7 quedó fuera del top 10. Saca 7.16 y cuesta $117 por 1k calls. 20× más caro que DeepSeek V4 Flash, que via NIM gratis saca 7.07.

La pregunta difícil: ¿pagarías 20× más para ganar 8% de score?

El mismo modelo, distinto proveedor: importa más de lo que crees

Otro hallazgo que me hizo repensar todo: el provider importa tanto como el modelo.

Gemma 4 31B corrió en tres proveedores distintos:

Provider
Score
Costo
tok/s

NVIDIA NIM
7.20
$0.00
22.8

OpenRouter
7.20
$0.99
22.8

DGX Spark local (Q4)
6.84
$0.00
9.3

NIM gratis da exactamente el mismo resultado que OpenRouter pagado. Y Kimi K2.5 en NIM gratis empata al 100% con OpenRouter a $1.26/1k calls. Pagar por ese modelo cuando NIM lo da gratis es, literalmente, quemar dinero.

La regla es simple: si Groq tiene el modelo, usa Groq. Su LPU entrega 5-10× más velocidad a precio competitivo. Si quieres costo cero con calidad FP16, usa NIM (con límite de 40 RPM, pero gratis).

Cómo configurar Claude Code con cualquier proveedor — paso a paso

Acá viene la parte práctica. Todo lo que describo está documentado con archivos de configuración listos en github.com/ctala/claude-code-providers.

Preparación: limpia tu entorno

Antes de cualquier cosa, verifica que no tengas variables del shell sobrescribiendo la configuración:

env | grep ANTHROPIC

Si ves ANTHROPIC_AUTH_TOKEN, ANTHROPIC_BASE_URL o ANTHROPIC_API_KEY en tu ~/.zshrc o ~/.bashrc, las variables del shell tienen prioridad sobre los settings por carpeta. Desactívalas antes de probar:

unset ANTHROPIC_AUTH_TOKEN ANTHROPIC_BASE_URL ANTHROPIC_API_KEY

La estructura: cada proveedor es una carpeta independiente

El repositorio funciona así: cada subcarpeta es un workspace Claude Code completo con su configuración aislada:

proveedor/
├── .claude/
│   ├── settings.json              # Config compartible (BASE_URL, modelos)
│   ├── settings.local.json.example # Plantilla con placeholder para tu key
│   └── settings.local.json        # Tu API key real (gitignored)
├── .gitignore                     # Incluye settings.local.json
└── README.md                      # Instrucciones específicas

Setup genérico (3 pasos)

## 1. Entra a la carpeta del proveedor
cd /

## 2. Copia la plantilla y pega tu API key
cp .claude/settings.local.json.example .claude/settings.local.json
$EDITOR .claude/settings.local.json

## 3. Lanza Claude Code
claude

## Dentro de Claude, verifica:
/status    # Confirma BASE_URL + modelo activo
/model     # Cambiar modelo si el proveedor tiene varios

Tienes 20+ proveedores configurados así. Cambias de uno a otro con un cd. No hay conflicto porque cada settings.local.json vive en su propia carpeta.

Proveedores por categoría — cuál elegir según tu situación

Plan mensual: alternativas fijas a Anthropic Max

Carpeta
Proveedor
Modelos
USD/mes

xiaomi/
Xiaomi MiMo Token Plan
MiMo V2.5, V2.5-Pro, V2-Omni
$6-$88

zai-coding/
Z.ai GLM Coding Plan
GLM-4.7, GLM-5.1, GLM-4.5-Air
~$10-$80

minimax/
MiniMax Coding Plan
M2.7, M2.7-highspeed
$19-$50

qwen-coding/
Alibaba Qwen Coding Plan
Qwen3-Coder-Plus, Qwen3-Max
Variable

Mi recomendación personal: Xiaomi MiMo a $14/mes (plan Standard). MiMo V2.5 salió #10 global en el benchmark con score 7.32 — por encima de Claude Opus 4.7 en 3 de 4 pilares. A 42× menos del costo.

Pay-as-you-go: para cuando no quieres suscripción

Carpeta
Proveedor
Modelos
Notas

deepseek/
DeepSeek
DeepSeek-V3, Coder
De los más baratos del mercado

openrouter/
OpenRouter
300+ modelos
Una key para todo, fallback automático

moonshot/
Moonshot Kimi
Kimi K2 Turbo
Endpoint Anthropic-compat oficial

zai-api/
Z.ai BigModel API
GLM-4.7, GLM-5.1
Pay-per-token

OpenRouter es el comodín: una sola API key te da acceso a Anthropic, xAI, Google, Meta, Qwen, DeepSeek — 300+ modelos. Si quieres flexibilidad sin compromisos, es la opción.

Cloud enterprise: AWS, GCP, Azure

Carpeta
Plataforma
Variables

aws-bedrock/
AWS
CLAUDE_CODE_USE_BEDROCK=1

google-vertex/
GCP
CLAUDE_CODE_USE_VERTEX=1

azure-foundry/
Azure
Endpoint Anthropic-compat

Si tu empresa ya tiene cuentas en AWS/GCP/Azure, esto te permite consumir Claude (Bedrock, Vertex) o modelos third-party (Foundry) bajo tu IAM y facturación corporativa. Sin APIs sueltas, sin credenciales fuera del ecosistema.

Local: si tienes el hardware, la privacidad no tiene precio

Carpeta
Stack
Modelos típicos

ollama-local/
Ollama 0.11+ (Anthropic-compat nativo)
Qwen3-Coder, Llama 3.3, DeepSeek-V3

lmstudio-local/
LM Studio + LiteLLM proxy
Cualquier GGUF

nvidia-nim/
Docker NIM container
NIMs publicados por NVIDIA

Ollama 0.11+ expone el endpoint Anthropic-compat de forma nativa en :11434. Sin proxy, sin traductor. Es tan simple como correr el container y apuntar ANTHROPIC_BASE_URL=http://localhost:11434.

Si tienes un DGX Spark (o cualquier GPU potente con 24GB+), puedes correr Qwen3-Coder:480B, Llama 3.3:70b, o DeepSeek-Coder-V2 localmente. Costo: $0 (más electricidad). Privacidad: total.

La trampa de ANTHROPIC_AUTH_TOKEN vs ANTHROPIC_API_KEY

Un error que me quitó 2 horas la primera vez — y por eso lo puse en el docs/troubleshooting.md del repo:

ANTHROPIC_AUTH_TOKEN — Para proveedores third-party con endpoint Anthropic-compat (Z.ai, Xiaomi, Moonshot, DeepSeek).
ANTHROPIC_API_KEY — Solo para Anthropic directo (pay-as-you-go en api.anthropic.com).

Confundirlas = error 401 inmediato. Y no es obvio hasta que lees la documentación del proveedor.

¿Pero funcionan de verdad estos modelos para coding?

La pregunta del millón. Si vas a usar Claude Code, es para programar. Probé 23 suites distintas, incluyendo code_generation, tool_calling, y structured_output.

Los resultados por suite:

Suite
Mejor modelo
Score

Code generation
Llama 4 Scout 17B
8.04

Tool calling
Llama 3.1 8B Instant
8.45

Structured output
Llama 3.1 8B Instant
8.00

String precision
Devstral Small
8.12

Razonamiento
GPT-OSS 20B
7.97

Deep reasoning
Llama 4 Scout 17B
7.68

Devstral Small (Mistral, Apache 2.0, $0.10/$0.30 per M tokens) es la sorpresa del benchmark — open-source, barato, y domina coding con un tool calling excelente.

Ahora, una advertencia honesta: el benchmark mide modelos solos, single-turn, sin herramientas. En producción real, un workflow N8N con herramientas (búsqueda web, RAG, API calls) puede invertir el ranking. Qwen 3.5 397B, por ejemplo, parece «regular» en el benchmark (score global 6.72) pero en producción genera artículos excelentes para ecosistemastartup.com porque se integra perfecto con tools de búsqueda.

El benchmark te da la línea base. Tu workflow real te da el resultado.

Setups recomendados por presupuesto

$0/mes — Solo local

Si tienes el hardware (DGX Spark, GPU 24GB+, Apple Silicon):

Modelos:

- Gemma 4 31B → tareas rápidas

- Qwen 3.5 72B → coding y razonamiento de calidad

- Phi-4 14B → juez local

Setup: ollama-local/ carpeta

$14-20/mes — Una suscripción fija

Opción
Qué obtienes
Mejor para

Xiaomi MiMo ($14)
MiMo V2.5 (score 7.32)
Content + coding económico

GLM Coding ($10)
GLM-5.1, GLM-4.7
Coding con costo fijo

OpenRouter pay-as-you-go
300+ modelos, ~$20 crédito
Flexibilidad máxima

Mi recomendación: OpenRouter. Una API key para todo. Si un modelo falla o se deprecata, cambias sin reconfigurar nada.

$50/mes — Combo óptimo

OpenRouter pay-as-you-go: ~$15-20 (DeepSeek + Gemini Flash + Devstral)
MiniMax Agent Pro: $19 (M2.7 para agentes, costo fijo)
Gemini CLI: $0 (prototipos rápidos)
Total: ~$35-40

Esto reemplaza a la suscripción Max de $200 de Anthropic — y no dependes de su disponibilidad.

$100+/mes — Setup completo

OpenRouter: ~$20 (DeepSeek + Devstral para volumen)
MiniMax Agent: $19 (M2.7 para agentes 24/7)
NIM local: $0 (modelos open-source para privacidad)
Anthropic Max (opcional): $200 (Opus 4.7 solo para tareas críticas)

Nota: Anthropic Max lo uso solo para tareas críticas donde necesito Opus 4.7. Para todo lo demás, los modelos alternativos rinden igual o mejor por fracción del costo.

Para dar perspectiva: yo pago $200 al mes por Anthropic Max (la suscripción más cara que existe) y me alcanza la mitad del tiempo. Cuando los servidores de Claude se saturan, las respuestas se vuelven más genéricas — lo notas. Con el setup que describo ($35-40) trabajo sin límites, con fallback automático y sin depender de una sola empresa. No es teoría — es lo que uso todos los días.

El combo de abajo es como tener 300 modelos a tu disposición con una sola API key (OpenRouter). Si uno falla, usas otro. Si Anthropic se cae, rotas a Groq. Si DeepSeek está lento, usas MiMo. Tienes poder de negociación.

Lo que aprendí haciendo esto

Correr 7,725 benchmarks con 68 modelos no es gratis. Invertí:

~$350-400 USD en APIs (OpenAI, OpenRouter, MiniMax, Anthropic, Xiaomi)
~$45/mes en suscripciones activas
~190h de cómputo cloud
~50h de cómputo local (GPU en Mac M-series + DGX Spark)
~80-100h de trabajo humano (diseño de tests, debugging, análisis, documentación)

Todo eso está disponible gratis bajo MIT license en los dos repositorios. Si te ahorró una tarde de debugging de Anthropic Base URL, dale una estrella — ayuda a que otros devs lo encuentren.

github.com/ctala/claude-code-providers — workspaces listos para 20+ proveedores
github.com/ctala/ai-benchmarks-alternativos — 7,725 benchmarks, 68 modelos, 23 suites
benchmarks.cristiantala.com — dashboard interactivo para encontrar tu modelo en 30 segundos

La verdad incómoda

No existe el «mejor modelo». Y quien te diga que sí, probablemente te está vendiendo uno.

Lo que existe es el mejor modelo para lo que necesitas, con el presupuesto que tienes, en el contexto que trabajas.

¿Coding rápido y barato? Devstral Small o DeepSeek V3.
¿Agentes 24/7 con costo predecible? MiniMax M2.7 a $19/mes fijo.
¿Contenido SEO en español? DeepSeek V3.2 es #1 en news_seo_writing.
¿Soporte al cliente donde la honestidad importa? Claude Sonnet — no inventa respuestas.
¿Privacidad total? Ollama local con los modelos que ya corren en tu hardware.
¿Flexibilidad absoluta? OpenRouter con una key para 300+ modelos.

El ecosistema de LLMs en 2026 es un banquete — y la mayoría sigue comiendo en el mismo restaurante caro. Hay alternativas mejores, más baratas, y en muchos casos, abiertas.

La pregunta no es «cuál es el mejor modelo». La pregunta es: ¿qué quieres construir hoy, y cuánto quieres pagar por las herramientas?

¿Tienes dudas sobre qué modelo usar para tu caso específico? Únete a mi comunidad de emprendedores en Cágala, Aprende, Repite — ahí podemos ayudarte entre todos. Y si quieres ver cómo armo los benchmarks con N8N y OpenClaw en la práctica, el workflow está documentado en el repo.

Publicado originalmente en cristiantala.com

El Software Meltdown: Por Qué el Modelo de Precios por Asiento Tiene los Días Contados

Cristian Tala S. — Mon, 13 Apr 2026 11:45:42 +0000

El Software Meltdown: Por Qué el Modelo de Precios por Asiento Tiene los Días Contados

Atlassian -63%. HubSpot -48%. Workday -47%. Figma -49%. Snowflake -40%. No es una corrección de mercado. Es el mercado procesando una verdad estructural que el sector SaaS lleva dos años ignorando.

Cuando vi el gráfico del Software Meltdown de esta semana, la primera reacción no fue pánico. Fue reconocimiento.

Llevo 15 años en el ecosistema tecnológico y de inversión. Fundé una fintech, la vendí, e invertí en más de 30 startups. He visto ciclos. Y este no se parece a ninguno de los anteriores.

Los Números del 9 de Abril de 2026

El gráfico compilado por @speculator_io muestra el estado del sector al 9 de abril:

Empresa	Caída YTD	Caída desde máximo 52 sem.
Atlassian (TEAM)	-63.76%	-75.72%
Asana (ASAN)	-58.39%	-69.84%
monday.com (MNDY)	-57.81%	-80.24%
Figma (FIG)	-49.96%	-86.66%
HubSpot (HUBS)	-48.84%	-69.90%
Workday (WDAY)	-47.48%	-59.05%
Intuit (INTU)	-45.75%	-55.96%
Snowflake (SNOW)	-40.02%	-52.98%
Salesforce (CRM)	-35.68%	-42.48%
Adobe (ADBE)	-34.58%	-45.76%

El promedio de caída es del 40.3% en lo que va del año. El ETF de software IGV cayó más del 24% solo en el primer trimestre.

Los que mejor se defienden en este índice: Cloudflare (-3.64%) y Zoom (-2.67%). Ese dato no es aleatorio. Más adelante explico por qué.

Por Qué Esto Empezó en Febrero

El catalizador específico fue en febrero de 2026, cuando Anthropic lanzó Claude Cowork — una demostración de cómo agentes de IA pueden automatizar trabajo de conocimiento que antes requería múltiples personas: redacción legal, análisis financiero, gestión de proyectos, calificación de leads.

El mercado no tardó en extraer la conclusión obvia: si un agente puede hacer el trabajo de 10 personas, el número de asientos de software que necesitas colapsa.

Thomson Reuters cayó 15.83% en un solo día. LegalZoom 19.68%. Los short sellers alcanzaron niveles no vistos desde 2016.

Atlassian ya lo está viviendo en sus números. La empresa anunció layoffs del 10% de su fuerza laboral (1,600 personas) en marzo de 2026, redirigiendo recursos hacia IA. CEO Mike Cannon-Brookes reconoció que la IA "cambia el mix de habilidades necesarias" y reduce roles en algunas áreas. El stock tocó nuevos mínimos de 52 semanas entre $67-69, con caída del 57% YTD.

Nótese lo que Atlassian no dijo: que los ingresos están cayendo hoy. Los ingresos en la nube crecieron 26% interanual en Q2 FY2026. El problema no es el presente — es la anticipación del futuro.

El Modelo que Se Está Rompiendo

El SaaS clásico se construyó sobre una ecuación perfecta:

Más trabajo = Más personas = Más asientos = Más ingresos recurrentes

Esta ecuación funcionó durante 20 años porque la única forma de escalar el trabajo humano era contratar más humanos. Cada empleado nuevo era un asiento nuevo garantizado.

La IA rompió la ecuación.

Según datos de Gartner, el modelo de precios por asiento bajó del 21% al 15% de adopción empresarial en 2025. El modelo "outcome-based" (pago por resultado) pasó del 15% al 40% de los contratos empresariales en el mismo período. Para 2030, Gartner proyecta que al menos el 40% del gasto en software será por uso, agente o resultado — no por asiento.

Goldman Sachs publicó en febrero su "AI Impact Framework", identificando las empresas SaaS con mayor riesgo de desplazamiento según seis factores: riesgo de orquestación, exposición de monetización, propiedad de sistema-de-registro, moat de integración de datos, capacidad de ejecución con IA, y alineación presupuestaria.

El banco comparó el riesgo de las empresas más vulnerables con el de los periódicos en la era digital: negocios con modelos sólidos que se volvieron obsoletos no porque el producto fuera malo, sino porque el mecanismo de monetización dejó de tener sentido.

Por Qué Esta Corrección Es Diferente

El mercado ha vivido tres correcciones grandes en tecnología desde que existe el SaaS moderno: el estallido .com de 2001, la crisis financiera de 2008, y el crash post-COVID de 2022. Las dos primeras las estudié en retrospectiva — mi vida laboral formal empezó en 2010 como profesor y en empresas desde 2011. El crash de 2022 sí lo viví en primera fila como fundador e inversionista activo.

Cada vez, los mejores negocios rebotaron porque el problema era el precio, no el modelo.

La caída de 2022-2023 fue corrección de valuaciones. Las empresas seguían creciendo ingresos — solo a múltiplos más bajos. El mercado pagó P/E de 50x durante el boom de tasas cero y los ajustó a 20x cuando las tasas subieron.

Esta vez es diferente. Las empresas que caen no están sobrevaloradas para lo que son hoy. Están sobrevaloradas para lo que serán mañana.

La caída de 2026 anticipa compresión estructural de ingresos, no solo de múltiplos.

Lo Que Está Pasando en Cada Categoría

CRM — HubSpot (-48%), Salesforce (-35%): Los agentes de IA califican leads, envían emails personalizados, hacen seguimiento y actualizan el CRM sin humano en el loop. Monday.com ya reemplazó 100 roles de SDR con IA. Son 100 asientos menos. Multiplicado por miles de empresas.

Gestión de proyectos — Atlassian (-63%), Asana (-58%): Si los agentes crean tickets, los asignan, hacen seguimiento y generan reportes automáticamente, ¿cuántos humanos necesitas para gestionar el backlog?

HR y Finanzas — Workday (-47%), Intuit (-45%): Workday ya recortó el 8.5% de su workforce. Jefferies los bajó a Underperform citando "impacto cuantificado de la IA en ingresos futuros". No es especulación — es análisis de cuántos asientos van a desaparecer en los próximos 3 años.

Datos y Analytics — Snowflake (-40%), Datadog (-20%): Los LLMs pueden hacer análisis que antes requerían equipos enteros de analistas. La barrera de entrada al análisis de datos colapsó.

Herramientas de diseño — Figma (-49%): Cuando los agentes de IA generan interfaces funcionales a partir de texto, ¿cuántos diseñadores necesitas con acceso a Figma?

Los Que Se Defienden Bien — y Por Qué

Los dos outliers en el índice son Cloudflare (-3.64%) y Zoom (-2.67%). ¿Qué tienen en común?

Cloudflare: Infraestructura. Es la capa por donde pasa internet. Los agentes de IA necesitan red tanto como los humanos. Si hay más tráfico de IA, Cloudflare gana más — no pierde.

Zoom: Comunicación humana. Por ahora, las reuniones siguen siendo de personas con personas. Y el negocio se está reinventando con IA en lugar de competir contra ella.

El patrón es claro: los que ofrecen infraestructura o integran IA en lugar de competir con ella sobreviven mejor.

Goldman Sachs identifica sus "compras resilientes" en este contexto: MongoDB (consumo vs. asiento), Rubrik (seguridad de datos), Procore (construcción vertical con datos propietarios), Nutanix (infraestructura). El denominador común: o infraestructura, o datos que la IA no puede replicar fácilmente, o modelo de precio por uso.

El Nuevo Modelo: Pago por Resultado

Si el modelo por asiento está muriendo, ¿qué lo reemplaza?

El modelo "outcome-based": pagas por el resultado entregado, no por el acceso a la herramienta.

Ejemplos reales:

Si la IA califica 1,000 leads para ti este mes, pagas por los leads calificados — no por cuántos usuarios tienen acceso al CRM
Si el software automatiza 500 horas de trabajo de analista, pagas una fracción de ese valor — no por el número de analistas que lo usan
Si el agente de soporte resuelve 10,000 tickets, pagas por ticket resuelto — no por los agentes humanos que supervisan

IDC proyecta que para 2028, el 70% de los vendors SaaS habrá migrado de asientos a consumo o resultado. Lo que antes era tendencia marginal se está convirtiendo en el nuevo estándar.

El Argumento Contrarian — Y Por Qué Solo Es Parcialmente Correcto

JP Morgan, Wedbush y Morgan Stanley argumentan que el selloff es "exagerado" y que el SaaS tiene moats reales: contratos de largo plazo, switching costs altos, datos propietarios, compliance.

Tienen razón en que la velocidad del ajuste puede ser exagerada. Salesforce tiene $21B en contratos que no se van a cancelar mañana. Workday tiene CIOs que necesitan 18 meses para migrar a otro sistema.

Pero el argumento de switching costs solo retrasa el inevitable repricing — no lo evita. Los contratos se renuevan. Y cuando se renueven, la negociación va a ser diferente.

Andreessen Horowitz argumenta que la IA aumenta la demanda de software porque más código se va a escribir. También tienen razón — pero ese nuevo software se va a construir y operar con menos humanos, lo que colapsa la métrica de "asientos".

El volumen de software puede explotar. El número de asientos pagados puede colapsar simultáneamente. No son contradictorios.

Mi Historia Con Este Software

Usé Asana desde 2011. Más de una década.

Cuando apareció la IA generativa, mi primera reacción no fue "voy a contratar más gente en Upwork, Workana o Fiverr para escalar". Fue la opuesta: "voy a ver qué puedo resolver con esto antes de contratar a alguien".

No fue una decisión filosófica. Fue pragmatismo. Si la IA podía hacer algo que antes requería contratar a un freelancer, ¿por qué no probar primero?

Con el tiempo, esa mentalidad se fue extendiendo a todo el stack. Cuando llegaron los agentes autónomos, empecé a migrar herramientas activamente. n8n en lugar de Zapier. Listmonk en lugar de MailerLite. NocoDB en lugar de Airtable.

Asana siguió en mi stack por inercia mucho tiempo. Lo abría, creaba algunas tareas, y en algún momento dejé de abrirlo. No lo cancelé de un día para otro — simplemente se volvió irrelevante. El tracking de mis proyectos migró a NocoDB + un agente que gestiona prioridades automáticamente.

No fue una decisión consciente de "dejé Asana". Fue que Asana dejó de aportar valor antes de que yo lo notara.

Eso es exactamente lo que el mercado está descontando en los precios de estas acciones. No que Asana sea mala. Es que el trabajo que justificaba pagar por ella lo hace algo más hoy.

La Perspectiva del Inversionista

Soy LP en más de 7 fondos de venture capital y he hecho más de 30 inversiones directas. Mi posición ante este meltdown:

Lo que estoy evitando:

SaaS horizontal con modelo puro de asiento sin moat de datos
Software de productividad genérico sin integración profunda en workflows
Analytics que no tiene datos que los LLMs no puedan replicar

Lo que me parece interesante:

Infraestructura de IA (cómputo, redes, almacenamiento) — los agentes también la necesitan
SaaS vertical con datos propietarios que son más valiosos con IA que sin ella
Empresas que cobran por outcome con métricas claras y auditables
Orquestación de agentes — el middleware del nuevo mundo

Las preguntas que le haría a cualquier founder SaaS hoy:

¿Cuántos de tus clientes van a renovar contratos de la misma forma cuando llegue el ciclo de renovación en 2027?
¿Tienes datos que los LLMs no pueden replicar?
¿Puedes cobrar por resultado en lugar de por acceso?

Si las respuestas son "no sé", "probablemente no" y "es complicado", hay trabajo que hacer.

Y hay un patrón que estoy viendo con frecuencia en startups que buscan inversión hoy: founders que construyeron un SaaS con ayuda de IA, que resuelve un problema que... la IA ya resuelve por sí sola. Sin necesitar ni siquiera un wrapper.

No tienen un producto. Tienen una interfaz sobre algo que ya existe gratis.

El problema no es solo ChatGPT. En 2026 el ecosistema de IA nativa que compite directamente con startups incluye:

Anthropic: Claude Cowork (agentes enterprise con integraciones a Google Drive, Gmail, Excel, DocuSign), Claude Code, Claude.ai — automatizando desde documentación clínica hasta ciclos de desarrollo completos
Google: Gemini Enterprise con 1,000+ agentes pre-construidos, integración nativa con Workspace, y creación de agentes sin código
OpenAI: ChatGPT con GPTs personalizados, Operator (agentes web), Codex para desarrollo

Hay founders que hacen una demo impresionante de su "solución de IA para recursos humanos" y no saben que Anthropic lanzó Cowork con un plugin de HR específicamente para eso, que Google tiene un agente de onboarding nativo, y que cualquier empresa con $20/mes de Gemini Enterprise lo tiene incluido.

Hace unas semanas desayuné con una founder que me mostró algo distinto. Su solución distribuye IA a través de hardware propietario en contextos industriales. Lo que antes se consideraba un problema de escalabilidad — tener hardware físico — hoy se ve como una ventaja competitiva real. El hardware es un moat que los modelos de lenguaje no pueden copiar en 90 días. Los datos que captura el hardware son propietarios por naturaleza. La barrera de entrada no es el modelo de IA — es la manufactura, la cadena de suministro, el deployment físico.

Eso es un negocio. Eso tiene defensibilidad.

La diferencia entre lo que me genera entusiasmo como inversionista y lo que me genera preocupación no es la tecnología — es si el valor del negocio existe independientemente del modelo de IA subyacente.

Y acá está la paradoja que más me parece interesante: el modelo de pago por resultado que está emergiendo en el SaaS es exactamente la misma lógica que le digo a los founders cuando se enamoran de la tecnología en lugar del problema. Al mercado no le importa cómo lo haces — le importa qué problema resuelves, cuánto valor entrega, y si ese valor es medible. El SaaS que sobreviva va a ser el que pueda demostrar eso con métricas reales.

La pregunta que le hago a cualquier founder que me pide inversión hoy:

"¿Puedo acceder a lo que haces tú, gratuitamente, usando directamente ChatGPT, Gemini Enterprise, Claude Cowork o cualquier otra IA nativa disponible en el mercado?"

Si la respuesta es "básicamente sí" — no es un negocio, es un experimento con un modelo de precios.

Conclusión: No es el Fin del Software, Es el Fin de un Modelo

Goldman Sachs estimó que el mercado total de software podría crecer entre 20-45% hacia 2030. Eso no es una industria muriendo.

Es una industria siendo redistribuida.

El Software Meltdown no es porque vayamos a usar menos software. Es porque el trabajo que pagaba los asientos lo van a hacer agentes, no humanos. El valor del software no desaparece — cambia de manos.

Los ganadores del próximo ciclo van a ser los que capturaron ese valor donde realmente está: en los datos, en la infraestructura, en los resultados — no en el acceso por usuario.

Los que llegaron tarde al baile van a verse como los periódicos en 2005: con buenas audiencias, buenos contenidos, y un modelo de ingresos que estaba siendo vaciado por algo que todavía no entendían del todo.

¿Tienes una startup SaaS con modelo por asiento? ¿Estás invirtiendo en el sector? Me interesa el debate. La velocidad de la disrupción importa tanto como la dirección. Comparte tu perspectiva en los comentarios o en la comunidad Cágala, Aprende, Repite, donde estamos construyendo en tiempo real con herramientas de IA.

Publicado originalmente en cristiantala.com

Benchmark de Modelos AI para Agentes (OpenClaw, N8N) - Abril 2026

Cristian Tala S. — Sun, 12 Apr 2026 20:13:53 +0000

Benchmark de Modelos AI para Agentes (OpenClaw, N8N) — Abril 2026

Después de ejecutar 27 tests con 8 modelos diferentes desde Chile, los resultados son claros: DeepSeek V3.2 gana en valor absoluto, pero MiniMax M2.7 es la mejor opción para agentes con suscripción fija.

Los Resultados que Importan

He probado 8 modelos durante 2 semanas ejecutando benchmarks completos de contenido, tool calling, coding, reasoning y gestión de tareas. Los tests se ejecutaron desde Chile con latencia real de conexión a cada proveedor.

Ranking Global — 27 Tests por Modelo

#	Modelo	Score	Velocidad	Latencia	Costo/Call	Tipo
1	DeepSeek V3.2	7.09	36 tok/s	18.8s	$0.00024	Open Source (MIT)
2	Gemini 2.5 Flash Lite	6.95	212 tok/s	4.7s	$0.00362	Propietario
3	GPT-5.4 Mini	6.74	142 tok/s	6.4s	$0.00316	Propietario
4	MiniMax M2.7 Highspeed	6.74	51 tok/s	26.1s	$0.00421	Parcial
5	Claude Sonnet 4.6	6.70	62 tok/s	21.1s	$0.00415	Propietario
6	MiniMax M2.7	6.68	57 tok/s	26.5s	$0.00431	Parcial
7	GPT-5.4	6.25	65 tok/s	14.8s	$0.00320	Propietario
8	Qwen 3.6 Plus	6.07	47 tok/s	83.1s	$0.00995	Open Source (Apache)

Costo/Call = lo que cuesta procesar una request típica de benchmark (input + output). Con 100 requests/day, DeepSeek cuesta ~$0.024/día vs Claude Sonnet ~$0.42/día.

Recomendación para Agentes OpenClaw y N8N

Por Caso de Uso

Uso	Modelo Recomendado	Por Qué
Agente con tool calling (N8N)	GPT-5.4 Mini	#1 en tool calling (7.5/10), rápido, económico
Agente económico	DeepSeek V3.2	#1 global, 17x más barato que Claude
Agente ultra-rápido	Gemini 2.5 Flash Lite	212 tok/s, 4.7s latencia
Agente con suscripción fija	MiniMax M2.7	$20-69/mes, sin sorpresas de costo
Contenido para startups	DeepSeek V3.2	#1 en startup content
Feature images WordPress	MiniMax Image-01	5/5 exitosos, 16-60s por imagen

Por Suscripción

Si ya tienes una suscripción fija, esta es la mejor opción por tier:

Tier	Suscripción	Mejor Modelo	Score Global
Gratis	Qwen 3.6 Plus Preview	$0/M	6.07
$10-20/mes	MiniMax Coding Plan	M2.7 Highspeed	6.74
$20/mes	Google AI Pro	Gemini 2.5 Flash Lite	6.95
$50/mes	Qwen Coding Pro	Qwen 3.6 Plus	6.07
$69/mes	MiniMax Agent Pro	M2.7 Highspeed	6.74

Los Hallazgos Clave

1. DeepSeek V3.2 es el Rey del Valor

Con un score de 7.09 y un costo de $0.00024 por request, DeepSeek V3.2 es 17x más barato que Claude Sonnet para resultados ligeramente mejores. Si el presupuesto es una variable, esta es la respuesta.

DeepSeek V3.2:   Score 7.09 | $0.00024/req | 36 tok/s | 18.8s latencia
Claude Sonnet 4:  Score 6.70 | $0.00415/req | 62 tok/s | 21.1s latencia

DeepSeek es mejor Y más barato. La única desventaja: latencia variable cuando hay alta demanda global.

2. GPT-5.4 Mini le Gana al GPT-5.4 Grande

Este fue sorprendente. GPT-5.4 Mini (versión compacta) superó al GPT-5.4 normal en todas las categorías y es más rápido.

GPT-5.4 Mini:  Score 6.74 | 142 tok/s | 6.4s latencia | $0.00316/req
GPT-5.4:      Score 6.25 |  65 tok/s | 14.8s latencia | $0.00320/req

Si usas GPT-4o o GPT-5.x, cambia a la versión Mini ahora.

3. Gemini 2.5 Flash Lite es el Más Rápido

Con 212 tokens/segundo y solo 4.7 segundos de latencia, Gemini 2.5 Flash Lite es el modelo más rápido de esta prueba — 30x más rápido que Claude Sonnet.

Para tareas donde la velocidad importa más que la profundidad (moderación, clasificación, herramientas de baja latencia), este es el modelo.

4. MiniMax M2.7 es el Mejor para Suscripciones Fijas

Si no quieres sorpresas en la factura y prefieres pagar una cantidad fija mensual, MiniMax M2.7 Highspeed ofrece:

Score 6.74 (tercer lugar global)
$20-69/mes sin límite de requests
Tool calling excelente (SOTA para su tier de precio)
Imagen y audio integrados (Image-01, Speech-02)

La suscripción de MiniMax es la única que incluye generación de imágenes y voz sin costo adicional.

5. Claude Ya No Justifica el Costo

Claude Sonnet 4.6 scored 6.70 — menos que DeepSeek V3.2 (7.09), Gemini Flash Lite (6.95), y GPT-5.4 Mini (6.74) — mientras cuesta:

$0.00415/req (17x más caro que DeepSeek)
21.1 segundos de latencia
Sin suscripción API barata (Anthropic no ofrece una)

Si Anthropic no lanza un plan de $20/mes con API, va a perder mercado rápidamente frente a Google y DeepSeek.

Qué Modelos Uso Yo (Después del Benchmark)

Después de vender Pago Fácil y dedicarme a invertir y mentoriar startups, automatiqué casi todo mi trabajo con agentes de IA. Esta es mi configuración actual:

OpenClaw (mi asistente personal): MiniMax M2.7 Highspeed — suscripción fija, funciona 24/7, sin sorpresas
N8N (automatizaciones): DeepSeek V3.2 — para workflows que requieren razonamiento
Contenido rápido (resúmenes, emails): Gemini 2.5 Flash Lite — velocidad > profundidad

No uso Claude para nada de esto. Y lo digo después de haber sido suscriptor de $200/mes. El mercado cambió.

Comparativa de Velocidad (tokens/segundo)

Modelo	tok/s	Tiempo para 1000 tokens
Gemini 2.5 Flash Lite	212	4.7s
GPT-5.4 Mini	142	7.0s
GPT-5.4	65	15.4s
Claude Sonnet 4.6	62	16.1s
MiniMax M2.7 HS	51	19.6s
MiniMax M2.7	57	17.5s
DeepSeek V3.2	36	27.8s
Qwen 3.6 Plus	47	21.3s

Cómo Configurar Cada Modelo en OpenClaw

DeepSeek V3.2 (Mejor Valor)

{
  "models": {
    "providers": {
      "deepseek": {
        "baseUrl": "https://api.deepseek.com/v1",
        "apiKey": "tu_api_key",
        "api": "openai-completions",
        "models": [
          {"id": "deepseek-chat/deepseek-v3-250324"}
        ]
      }
    }
  }
}

MiniMax M2.7 Highspeed (Mejor Suscripción Fija)

{
  "models": {
    "providers": {
      "minimax": {
        "baseUrl": "https://api.minimax.io/v1",
        "apiKey": "tu_api_key",
        "api": "openai-completions",
        "models": [
          {"id": "MiniMax-M2.7-highspeed"}
        ]
      }
    }
  }
}

Gemini 2.5 Flash Lite (Más Rápido)

{
  "models": {
    "providers": {
      "gemini": {
        "baseUrl": "https://generativelanguage.googleapis.com/v1beta/openai/",
        "apiKey": "tu_api_key",
        "api": "openai-completions",
        "models": [
          {"id": "gemini-2.0-flash-lite"}
        ]
      }
    }
  }
}

Los Packs: Qué Suscripción Obtener y Para Qué

Después de mi experiencia configurando agentes para más de 100 emprendedores en programas de aceleración, estos son los packs que realmente funcionan:

Pack 1: MiniMax ($10-$69/mes) — Mejor para Agentes 24/7

Plan	Precio	Modelo	Para qué
Agent Pro	$19/mes	M2.7	Agentes N8N/OpenClaw
Agent Pro+	$69/mes	M2.7	Agentes 24/7 sin límites

Incluye: Tool calling SOTA, generación de imágenes (Image-01) y audio (Speech-02) sin costo adicional.

Mi recomendación: Agent Pro ($19/mes) + fallback a DeepSeek V3.2 cuando MiniMax tiene alta demanda.

Pack 2: Google AI ($20/mes) — Mejor para Velocidad

Plan	Precio	Modelo	Para qué
AI Pro	$19.99/mes	Gemini 2.5 Pro	Calidad + velocidad
Gemini 2.5 Flash	API	$0.30/M	Cuando necesitas velocidad

Incluye: Contexto de 1M tokens, integrado en Google Workspace (Gmail, Docs).

Pack 3: DeepSeek + OpenRouter — Mejor Valor

Plan	Precio	Modelo	Para qué
Pay-as-you-go	$0.14/M input	DeepSeek V3.2	Razonamiento, contenido
Free tier	$0	27 modelos	Probar sin costo

Mi recomendación: Una cuenta en OpenRouter con $5-10 de crédito = 1 año de agente moderado.

Pack 4: Local con Ollama — Costo Cero

Con un NVIDIA DGX Spark (128GB) puedes correr:

Modelo	RAM	Para qué
Gemma 4 26B MoE	16GB	Tareas rápidas (3.8B activos)
Qwen 3.5 72B	42GB	Coding de alta calidad
MiniMax M2.5	90GB	Coding SOTA (80.2% SWE-Bench)

Estrategia: Local primero → fallback a OpenRouter cuando local está ocupado.

Cuál Pack Elegir

Si eres...	Elige...
Emprendedor con presupuesto ajustado	DeepSeek V3.2 (pay-as-you-go) + Ollama local
Founder que automatiza su startup	MiniMax Agent Pro ($19/mes)
Desarrollador que construye agentes	MiniMax M2.5 local + OpenRouter backup
Investor/mentor con poco tiempo	Gemini 2.5 Flash Lite (velocidad > profundidad)

Conclusión

El benchmark de Abril 2026 confirma lo que ya sospechábamos:

DeepSeek V3.2 es el mejor valor absoluto — mejor que modelos 17x más caros
GPT-5.4 Mini reemplazó al GPT-5.4 como la mejor opción de OpenAI
MiniMax M2.7 es la mejor suscripción fija para agentes
Claude ya no justifica su costo para la mayoría de los casos de uso

Si estabas usando Claude porque "era el mejor", es hora de probar DeepSeek o MiniMax. El mercado cambió, los benchmarks demuestran que hay opciones mejores y más baratas.

Publicado originalmente en cristiantala.com

Por qué migré mi asistente de IA de Claude a Qwen y Gemma esta mañana

Cristian Tala S. — Sat, 04 Apr 2026 13:35:23 +0000

Por qué migré mi asistente de IA de Claude a Qwen y Gemma en una mañana

El viernes 3 de abril a las 7:47 PM me llegó este correo de Anthropic:

«Starting April 4 at 12pm PT / 8pm BST, you'll no longer be able to use your Claude subscription limits for third-party harnesses including OpenClaw.»

Tenía menos de 17 horas para decidir qué hacer.

No era que mi asistente dejara de funcionar completamente — Nyx (mi IA personal corriendo en OpenClaw) podía seguir usando Claude, pero ahora requería «extra usage»: pagos separados de la suscripción. Tenía una suscripción Max de Anthropic ($100-$200/mes). Esa plata ya no cubriría el uso en herramientas de terceros.

Decidí hacer algo que venía postergando: construir un stack de modelos diversificado y más inteligente.

El correo que lo cambió todo

El email oficial de Anthropic explicaba tres cosas:

1. El cambio: A partir del 4 de abril, las suscripciones Pro y Max no cubren uso en herramientas externas como OpenClaw. Siguen funcionando, pero requieren «extra usage» (pay-as-you-go separado).

2. La excepción: La suscripción sí cubre los productos propios de Anthropic: Claude Code y Claude Cowork.

3. El incentivo para suavizar el golpe: Anthropic ofrece un crédito único equivalente al precio mensual de tu suscripción (canjeable hasta el 17 de abril) y descuentos de hasta 30% al precomprar bundles de extra usage.

La razón técnica, según Boris Cherny (Head of Claude Code en Anthropic): las herramientas de terceros no están optimizadas para el cache de prompts que usa Claude internamente, generando un costo desproporcionado para Anthropic. Sus propias herramientas reciclan texto procesado y son mucho más eficientes en compute.

No fue una decisión sorpresiva dentro de la compañía — llegó en un momento donde también habían empezado a limitar sesiones cada 5 horas para el 7% de usuarios con más uso intensivo.

Mi situación concreta

Nyx es mi asistente de IA personal que corre en mi propio servidor (VPS). Gestiona contenido, automatizaciones, análisis, calendario de publicaciones y decenas de tareas al día. Hasta el viernes, usaba Claude Sonnet 4.6 como modelo por defecto, cubierto por mi suscripción Max.

Con el cambio, seguir igual significaba pagar por tokens de API encima de la suscripción. Según estimaciones de la comunidad, un agente corriendo activamente todo el día puede quemar entre $50 y $200 en tokens al mes solo en API. Inaceptable cuando ya estás pagando $100+ en suscripción.

La alternativa obvia: OpenRouter.

Cómo migré en una mañana

Paso 1: Audité los modelos disponibles con auth real

Lo primero fue ver qué tenía disponible realmente, no teóricamente:

Anthropic (token directo) → Sonnet, Opus, Haiku — disponibles, pero ahora pay-as-you-go
Google Antigravity (OAuth) → Gemini 3.1 Pro High, Gemini 3 Flash — descartados por historial de timeouts que ya habíamos tenido meses atrás
OpenRouter (API key) → Docenas de modelos de múltiples proveedores, pago por uso real
Groq (token) → Modelos rápidos, pero varios IDs desactualizados

Paso 2: Consulté rankings reales en LM Arena

No me fié de benchmarks de marketing. Fui a LM Arena de OpenLM.ai, que agrega millones de votaciones humanas ciegas entre modelos.

Los modelos relevantes para mi caso:

Modelo
Arena Score
Open Source
Costo/1M tokens

Gemini 3.1 Pro High
~1505 🏆
No
OAuth gratis*

Claude Sonnet 4.6
~1460 🥇
No
$3/$15

Gemma 4 31B
1450 🥇
✅ Apache 2.0
$0.14

Qwen3 235B 2507
1418 🥉
✅ Apache 2.0
$0.07

DeepSeek V3 0324
1377 🪙
✅ MIT
$0.20

*Gemini gratis vía OAuth, pero historial de timeouts en producción.

Paso 3: Probé latencia real — no benchmarks de papel

Aquí vino la sorpresa más importante. Usé OpenClaw para lanzar subagentes con cada modelo y medir tiempo de respuesta real en frío:

Modelo
Latencia real

DeepSeek V3 0324
257ms ✅

Llama 4 Maverick
346ms ✅

Qwen3 235B
638ms ✅

Mistral Small 3.1
460ms ✅

Gemma 4 31B
6.2 segundos ❌

Gemma 4 tiene el mejor Arena score de los open-source accesibles, pero 6 segundos de latencia en frío hace la conversación interactiva imposible. Quedó relegado a tareas batch offline (análisis SEO, procesamiento masivo).

Paso 4: El stack final

Después del análisis, este fue el resultado:

Modelo principal: Qwen3 235B A22B 2507 vía OpenRouter

638ms de latencia
Arena score 1418 (comparable con Claude Sonnet 4.5)
$0.07 por millón de tokens — ~42 veces más barato que Sonnet
Contexto de 262k tokens

Por agente especializado:

Agente
Modelo
Por qué

Principal (Nyx)
Qwen3 235B
Mejor calidad/costo/latencia

Contenido y cursos
Qwen3 235B
Excelente español, razonamiento sólido

SEO y análisis batch
Gemma 4 31B
Mejor score open-source, latencia aceptable

n8n y código
DeepSeek V3
El más rápido (257ms), excelente en código

Comentarios sociales
Mistral Small 3.1
Rapidísimo, $0.03/M — suficiente para esta tarea

Exploración API
Llama 4 Maverick
1 millón de tokens de contexto

Compaction de sesiones
Mistral Small 3.1
Barato para resumir contexto

Claude (Sonnet/Opus/Haiku) quedó disponible on-demand para cuando necesito calidad puntual máxima. Pero ya no es el default de nada.

Lo que aprendí de esto

1. La dependencia de un solo proveedor es un riesgo operacional.
El correo llegó el viernes a las 8 PM con vigencia el sábado al mediodía. Menos de 17 horas de aviso para un cambio que afecta a todos los usuarios de herramientas como OpenClaw. Si no hubiera tenido la infraestructura preparada, ese sábado Nyx simplemente no funcionaba.
2. El ecosistema open-source ya es competitivo de verdad.
Gemma 4 31B (Apache 2.0) tiene Arena score 1450 — supera a muchos modelos propietarios de hace 6 meses. Qwen3 235B está a tiro de piedra de Claude Sonnet a menos de una décima parte del costo. No es lo mismo que hace un año.
3. Un stack diversificado es más robusto y más barato.
Usar el modelo correcto para cada tarea no solo reduce costos — también mejora resultados. El modelo más caro no es el mejor para todo. Mistral Small para comentarios de 3 oraciones funciona igual de bien que Sonnet y cuesta 500x menos.
4. La latencia importa tanto como el score.
Arena score 1450 de Gemma 4 vs 1418 de Qwen3 parecen similares en papel. Pero 6 segundos vs 638ms es la diferencia entre un asistente usable y uno que no lo es para conversación interactiva.
5. Este cambio de Anthropic era predecible.
Cuando una empresa ofrece uso «ilimitado» a $20-200/mes y tú lo estás usando para correr un agente autónomo todo el día, en algún momento la economía no cierra. Anthropic eligió proteger sus márgenes en usuarios directos en lugar de subsidiar uso en terceros. Es razonable desde su perspectiva.

¿Qué deberías hacer si te afecta esto?

Si tienes un asistente de IA, agente de automatización, o cualquier herramienta que usa Claude vía suscripción + terceros, tienes tres caminos:

Activar «extra usage» en tu cuenta Anthropic — es lo más simple, pero suma otro costo variable sobre tu suscripción fija. Aprovecha el crédito gratuito de Anthropic (válido hasta el 17 de abril).
Migrar a OpenRouter — acceso a decenas de modelos, pago real por uso. Ningún costo fijo mensual. Riesgo: debes elegir bien el modelo para cada caso.
Usar la API directa de Anthropic — eliminas la suscripción y pagas por token. Más predecible si tienes uso variable, más caro si tienes uso alto y constante.

La opción que elegí fue la 2, complementada con la 1 para cuando necesito lo mejor disponible.

Si quieres discutir cómo implementar esto en tu propio setup, en mi comunidad Cágala, Aprende, Repite hay gente haciendo exactamente este tipo de experimentos.

Este post fue redactado con Qwen3 235B — el mismo modelo que reemplazó a Claude como default de Nyx. Tomó el sábado en la mañana migrarlo todo. Irónicamente, fue la mejor excusa para construir el stack que debería haber tenido desde hace meses.

Publicado originalmente en cristiantala.com

Gemma 4 de Google: Guía Completa, Casos de Uso y Cómo Correrlo en Tu Computador

Cristian Tala S. — Fri, 03 Apr 2026 15:19:27 +0000

Gemma 4 de Google: Guía Completa, Casos de Uso y Cómo Correrlo en Tu Computador

Google acaba de soltar una bomba.

El 2 de abril de 2026, DeepMind liberó Gemma 4 — una familia de 4 modelos de IA open source que, por primera vez, compite de igual a igual con modelos que cuestan cientos de dólares al mes. Y lo mejor: los puedes correr en tu laptop, sin internet, sin suscripción, sin pagarle un peso a nadie.

No es hype. Es un cambio real en cómo los emprendedores y desarrolladores podemos usar IA.

Llevo semanas usando modelos locales en mi flujo de trabajo diario — para contenido, código, automatización y hasta transcripción de podcast. Cuando vi los benchmarks de Gemma 4, tuve que parar todo y analizarlo a fondo.

Esto es lo que encontré.

¿Qué es Gemma 4?

Gemma 4 es una familia de modelos de inteligencia artificial creada por Google DeepMind, basada en la misma tecnología de Gemini 3 (su modelo propietario más potente). La diferencia: Gemma 4 es completamente open source, bajo licencia Apache 2.0.

Eso significa:

Sin restricciones comerciales
Sin límite de usuarios
Sin términos que Google pueda cambiar cuando quiera
Libertad total para modificar, entrenar y desplegar

Hasta Gemma 3 tenía una licencia restrictiva propia. Con Gemma 4, Google finalmente se puso al nivel de Qwen 3.5 y superó a Llama 4 (que tiene límite de 700 millones de usuarios mensuales).

Los 4 Modelos: Cuál Usar y Para Qué

Gemma 4 no es un solo modelo. Son 4 variantes, cada una diseñada para hardware y casos de uso diferentes.

Modelo
Parámetros Activos
Total
Contexto
Modalidades
Ideal Para

E2B
2.3B
5.1B
128K tokens
Texto, imagen, audio
Celulares, Raspberry Pi, IoT

E4B
4.5B
8B
128K tokens
Texto, imagen, audio
Laptops, asistentes locales

26B-A4B (MoE)
3.8B
25.2B
256K tokens
Texto, imagen, video
Mejor relación calidad/velocidad

31B Dense
30.7B
30.7B
256K tokens
Texto, imagen, video
Máxima calidad, código, razonamiento

La «E» significa «effective parameters» — estos modelos usan una técnica llamada Per-Layer Embeddings que les permite rendir como modelos mucho más grandes usando menos memoria.

El 26B-A4B es un Mixture of Experts (MoE): tiene 128 expertos pequeños pero solo activa 8 por cada token que procesa. Resultado: calidad del 97% del modelo grande, pero corriendo casi tan rápido como un modelo de 4B.

Los Benchmarks: Una Generación de Diferencia

Si Gemma 3 era un estudiante promedio, Gemma 4 es un PhD.

No exagero. Miren los números comparando Gemma 3 (27B) contra Gemma 4 (31B):

Benchmark
Gemma 3 27B
Gemma 4 31B
Cambio

AIME 2026 (matemáticas)
20.8%
89.2%
+68 puntos

LiveCodeBench (código)
29.1%
80.0%
+51 puntos

GPQA Diamond (razonamiento científico)
42.4%
84.3%
+42 puntos

BigBench Extra Hard
19.3%
74.4%
+55 puntos

Codeforces ELO (programación competitiva)
110
2,150
De «apenas funciona» a «experto»

MMMU Pro (razonamiento visual)
49.7%
76.9%
+27 puntos

El salto en Codeforces ELO es el más impresionante: pasó de un nivel donde básicamente no podía resolver problemas (ELO 110) a nivel de programador competitivo experto (ELO 2,150).

Y lo más loco: el modelo MoE de 26B logra el 97% de estos resultados activando solo 3.8B parámetros por inferencia. Es decir, calidad casi idéntica pero mucho más rápido y con menos hardware.

¿Qué Puede Hacer Gemma 4? Capacidades Clave

Razonamiento con «Thinking Mode»

Gemma 4 tiene un modo de pensamiento integrado donde razona paso a paso antes de responder — similar a lo que hace Claude con el extended thinking o DeepSeek-R1. Puede generar más de 4,000 tokens de razonamiento interno antes de darte la respuesta final.

Esto es lo que dispara los números en matemáticas y lógica compleja.

Function Calling Nativo

Todos los modelos soportan llamadas a funciones de forma nativa. Pueden devolver JSON estructurado con las herramientas que necesitan usar, sin prompts especiales ni hacks.

En la práctica: puedes construir agentes autónomos que planifican, llaman APIs, navegan interfaces y ejecutan flujos de trabajo completos. Todo corriendo local.

Multimodal Real

Imagen: Todos los modelos procesan imágenes con resolución variable, OCR, análisis de gráficos, detección de objetos y comprensión de documentos PDF
Video: Los modelos grandes (26B y 31B) analizan video hasta 60 segundos a 1 frame por segundo
Audio: Los modelos edge (E2B y E4B) tienen reconocimiento de voz nativo y traducción de audio en múltiples idiomas

140+ Idiomas

Entrenado nativamente en más de 140 idiomas. No es traducción — es comprensión real del contexto cultural y lingüístico. Para los que creamos contenido en español, esto importa.

Contexto Largo Que Funciona De Verdad

Gemma 3 tenía 128K de contexto, pero en la práctica no podía usar la información de contextos largos. Gemma 4 pasó de 13.5% a 66.4% en tests de recuperación de información en contextos de 128K tokens.

Los modelos grandes tienen 256K tokens de contexto — suficiente para pasarle un repositorio de código completo o un documento de 500 páginas.

Casos de Uso Reales: ¿Para Qué Sirve Cada Modelo?

Esto es lo que la mayoría de los artículos sobre Gemma 4 no te dicen. Los benchmarks están bien, pero ¿qué puedes hacer realmente con cada variante?

E2B (2.3B activos) — El Modelo de Bolsillo

Hardware mínimo: 4 GB RAM (cuantizado a 4-bit)

✅ Transcripción de audio offline — reconocimiento de voz nativo, ideal para grabar reuniones o notas de voz sin internet
✅ Asistente de voz en el celular — responde preguntas, resume textos, todo sin conexión
✅ IoT y domótica — automatizaciones inteligentes en un Raspberry Pi (133 tokens/segundo en prefill)
⚠️ No sirve para código complejo ni razonamiento profundo

E4B (4.5B activos) — El Asistente de Laptop

Hardware mínimo: 6 GB RAM (cuantizado a 4-bit)

✅ Transcripción y traducción de podcast — audio nativo en múltiples idiomas
✅ OCR de documentos y facturas — procesa imágenes de contratos, recibos, capturas
✅ Chatbot local — FAQ, onboarding, soporte básico sin APIs externas
✅ Primer borrador de contenido — no es calidad publicable, pero sirve como punto de partida
⚠️ Para código serio o análisis profundo, necesitas los modelos grandes

26B-A4B MoE — El Caballo de Batalla

Hardware mínimo: 16-18 GB RAM (cuantizado a 4-bit)
Ideal: GPU gaming de 24 GB (RTX 4090/3090) o Mac con 32 GB de memoria unificada

Este es el modelo que más va a impactar a emprendedores y desarrolladores. Activa solo 3.8B parámetros por token, así que es rápido, pero tiene la inteligencia de un modelo de 26B.

✅ Generación de contenido — posts, newsletters, emails con calidad sólida
✅ Código para automatización — genera workflows, scripts, integraciones con APIs
✅ Agente autónomo con herramientas — function calling nativo + thinking mode
✅ Análisis de documentos — contexto de 256K tokens, puede leer documentos largos completos
✅ Video comprensión — analiza clips de hasta 60 segundos
✅ Planificación estratégica — razonamiento multi-paso, puede armar calendarios de contenido o analizar mercados

31B Dense — La Bestia

Hardware mínimo: 17-20 GB RAM (cuantizado a 4-bit)
Ideal: GPU de 40+ GB o Mac con 64 GB de memoria unificada

El modelo más potente de la familia. #3 global entre modelos open source en Arena AI, compitiendo con modelos 20 veces su tamaño.

✅ Todo lo que hace el 26B, pero mejor
✅ Código de producción — ELO 2,150 en Codeforces, 80% en LiveCodeBench
✅ Razonamiento complejo — análisis de inversiones, evaluación de startups, problemas de lógica avanzada
✅ Fine-tuning — la mejor base para entrenar un modelo personalizado con tu tono, tu dominio, tus datos
✅ Contexto largo real — 66.4% en recuperación a 128K tokens, realmente usa lo que le pasas

Requerimientos de Hardware: ¿Puedo Correrlo en Mi Computador?

Esta es la tabla más importante de este artículo.

Modelo
4-bit (mínimo)
8-bit (recomendado)
Full BF16
Corre en

E2B
4 GB
5-8 GB
10 GB
Celular, Raspberry Pi 5, laptop básica

E4B
5.5-6 GB
9-12 GB
16 GB
Cualquier laptop con 8+ GB RAM

26B-A4B
16-18 GB
28-30 GB
52 GB
RTX 3090/4090, Mac M2 Pro+ 32GB

31B
17-20 GB
34-38 GB
62 GB
RTX 3090/4090 (apretado), Mac M2 Max+ 64GB

¿Qué significan las cuantizaciones?

4-bit: Comprime el modelo para usar menos memoria. Pierde algo de calidad, pero es la forma más accesible de correrlo
8-bit: Buen balance entre calidad y memoria
BF16 (full): Máxima calidad, requiere GPU profesional

Regla de oro: Tu memoria total disponible (RAM + VRAM) debe superar el tamaño del modelo cuantizado que quieres usar. Si no, puede correr más lento usando disco, pero no es ideal.

Cómo Instalarlo en 2 Minutos

Opción 1: Ollama (La más fácil)

## Instalar Ollama
curl -fsSL ollama.com/install.sh | sh

## Descargar y correr Gemma 4
ollama pull gemma4        # Descarga el 26B-A4B por defecto
ollama run gemma4         # Listo, a conversar

Para modelos específicos:

ollama pull gemma4:e2b    # Modelo pequeño (celular/Pi)
ollama pull gemma4:e4b    # Modelo laptop
ollama pull gemma4:31b    # Modelo máxima calidad

Opción 2: LM Studio (Con interfaz gráfica)

Si prefieres una interfaz visual, LM Studio tiene soporte desde el día 1. Descargas la app, buscas «Gemma 4», seleccionas la cuantización que tu hardware soporte, y listo.

Opción 3: llama.cpp (Máximo control)

Para los que quieren exprimir cada token por segundo:

git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build -DGGML_CUDA=ON  # OFF si no tienes GPU NVIDIA
cmake --build llama.cpp/build --config Release -j

./llama.cpp/build/bin/llama-cli \
  -hf unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL \
  --temp 1.0 --top-p 0.95 --top-k 64

¿No Tienes Hardware? Opciones en la Nube

No todos tienen una RTX 4090 o un Mac con 64 GB. Estas son las alternativas cloud:

Gratis

Plataforma
Modelos Disponibles
Límites

Google AI Studio
31B, 26B-A4B
Rate limits generosos, API key gratuita

Hugging Face Spaces
Todos
Inferencia gratuita limitada

Pago por uso (API)

Plataforma
Precio (31B)
Ventaja

OpenRouter
$0.14/M input, $0.40/M output
Multi-proveedor, fácil de integrar

Vertex AI
Varía por región
Deploy propio, compliance enterprise

NVIDIA NIM
Varía
Optimizado para GPUs NVIDIA

Baseten
Por segundo de inferencia
Deploy serverless

GPU Rentada (Para correr tu propia instancia)

Si quieres correr el modelo completo sin cuantizar o hacer fine-tuning:

Plataforma
GPU
Precio Aprox.

RunPod
A100 80GB
~$1.50-2.50/hora

Vast.ai
A100/H100
Desde ~$1.00/hora (spot)

Lambda Cloud
H100 80GB
~$2.50/hora

Google Cloud (GKE)
L4/A100/H100
Varía por región

Para contexto: con $0.14 por millón de tokens de input en OpenRouter, generar 1,000 posts de LinkedIn te costaría menos de $1 USD. Compáralo con $200/mes de una suscripción a Claude o ChatGPT Pro.

Gemma 4 vs La Competencia

¿Cómo se compara con los otros modelos open source del momento?

Categoría
Gemma 4 31B
Qwen 3.5-27B
Llama 4 Scout

Razonamiento
84.3% GPQA
~65% GPQA
74.3% GPQA

Matemáticas
89.2% AIME
~49% AIME
~55% AIME

Código
80% LiveCodeBench
~43% LiveCodeBench
~50% LiveCodeBench

Contexto
256K tokens
131K tokens
10M tokens

Idiomas
140+
201 (250K vocab)
200+

Licencia
Apache 2.0
Apache 2.0
Community (límite 700M MAU)

Audio nativo
Solo edge (E2B/E4B)
No
No

Eficiencia
MoE 3.8B activos
Dense 27B
MoE (16 expertos grandes)

¿Quién gana?

Calidad bruta: Gemma 4 31B domina razonamiento, código y matemáticas
Eficiencia: Gemma 4 26B-A4B (97% de calidad con 8x menos cómputo)
Contexto máximo: Llama 4 Scout (10M tokens, imbatible)
Idiomas: Qwen 3.5 (201 idiomas, vocabulario más grande)
Licencia más libre: Empate Gemma 4 / Qwen 3.5 (ambos Apache 2.0)
On-device / móvil: Gemma 4 E2B (el único con audio nativo en un modelo tan pequeño)

Lo Que Esto Significa Para Emprendedores

Si estás construyendo un negocio y usas IA, presta atención.

1. El costo de IA acaba de bajar drásticamente

Un modelo que compite con los mejores del mundo, corriendo en tu computador, gratis. Las suscripciones de $200-500 USD/mes en APIs ya no son obligatorias para la mayoría de casos de uso.

2. Privacidad total

Todo corre local. Tus datos, tus documentos, tus conversaciones nunca salen de tu máquina. Para startups que manejan datos sensibles, esto es un game changer.

3. Agentes locales son viables

Con function calling nativo y thinking mode, puedes construir agentes que automatizan flujos de trabajo completos sin depender de servicios cloud. Imagina un asistente que lee tus emails, actualiza tu CRM, genera reportes y programa publicaciones — todo corriendo en tu laptop.

4. El edge computing con IA explotó

Un modelo de 2.3B parámetros activos que entiende audio, imágenes y texto, corriendo en un Raspberry Pi. Las posibilidades para IoT, domótica, dispositivos médicos y retail son enormes.

Lo Que Gemma 4 Todavía NO Reemplaza

Seamos honestos:

Calidad de escritura final para contenido publicable: Claude Sonnet y GPT siguen siendo superiores para textos que requieren matiz y tono perfecto
Contexto masivo (repos completos de código): Llama 4 Scout con 10M tokens o Gemini Pro con 1M siguen siendo la opción
Audio en modelos grandes: Solo los E2B y E4B tienen audio — los modelos potentes (26B y 31B) no procesan audio
Tareas ultra-especializadas que requieren fine-tuning extensivo: los modelos propietarios de empresas como Anthropic o OpenAI aún tienen ventaja en ciertos nichos

Conclusión

Gemma 4 no es solo una actualización. Es el momento en que los modelos open source dejaron de ser «la alternativa gratuita pero peor» y se convirtieron en una opción legítimamente competitiva.

Un modelo que:

Saca 89.2% en matemáticas competitivas
Genera código a nivel de experto (ELO 2,150)
Corre en una laptop con 18 GB de RAM
Es completamente gratis y open source
Tiene licencia Apache 2.0 sin restricciones

Eso no existía hace un mes.

Si eres emprendedor, desarrollador o simplemente alguien que usa IA en su día a día, instalar Ollama y probar Gemma 4 debería estar en tu lista de este fin de semana. Dos comandos y estás listo.

¿Tienes dudas sobre modelos de IA locales o cómo integrarlos en tu negocio? Únete a mi comunidad de emprendedores en Cágala, Aprende, Repite — ahí podemos ayudarte entre todos.

Publicado originalmente en cristiantala.com

Anthropic Filtró Su Propio Código: Lo Que el Leak de Claude Code Revela (y Lo Que Nadie Está Diciendo)

Cristian Tala S. — Wed, 01 Apr 2026 12:44:53 +0000

El 31 de marzo de 2026, a las 4:23 AM hora de Nueva York, un investigador de seguridad llamado Chaofan Shou publicó un tuit que en pocas horas llegó a miles de desarrolladores en todo el mundo.

Había encontrado algo: Anthropic — la empresa de IA valuada en $380 billones, la misma que acababa de cerrar una ronda de $30 billones — había publicado accidentalmente el código fuente completo de Claude Code en el registro público de npm.

No se lo hackearon. Lo publicaron ellos mismos.

Qué pasó exactamente

La versión 2.1.88 de @anthropic-ai/claude-code se subió al registro de npm con un archivo source map de 59.8 MB adjunto. Un source map es un archivo de debugging interno que mapea el código minificado de vuelta al código fuente original y legible. Normalmente se excluye del build de producción con una línea en .npmignore.

Esa línea no estaba.

El resultado: 512.000 líneas de TypeScript en 1.900 archivos — el blueprint completo de cómo funciona el asistente de programación más usado del mundo — disponible públicamente por horas. Antes de que Anthropic pudiera reaccionar, ya estaba mirroreado en GitHub (github.com/instructkr/claude-code, más de 1.100 estrellas en las primeras horas) y analizado por miles de desarrolladores.

Anthropic confirmó el incidente con este comunicado:

«Earlier today, a Claude Code release included some internal source code. No sensitive customer data or credentials were involved or exposed. This was a release packaging issue caused by human error, not a security breach.»

Técnicamente correcto. Estratégicamente, es otra historia. Claude Code genera $2.5 billones de ARR anualizado — más que duplicado desde comienzos de 2026. Es el producto más importante de la empresa de IA más valiosa del mundo. Y filtraron el código fuente por no agregar una línea a un archivo de configuración.

Lo que encontraron adentro

La arquitectura de memoria que nadie había documentado

Lo más interesante para cualquiera que usa Claude Code no son las features secretas — es ver cómo Anthropic resolvió el problema de la memoria en sesiones largas de trabajo. El sistema tiene tres capas:

MEMORY.md: un índice liviano (~150 caracteres por línea) que siempre está cargado en el contexto. No almacena datos — almacena ubicaciones.
Topic files: archivos de conocimiento específico que se cargan bajo demanda cuando el índice los referencia.
Transcripts: nunca se leen completos de vuelta al contexto. Solo se «greppean» por identificadores específicos.

Esto es lo que llaman «Strict Write Discipline»: el agente solo actualiza el índice después de confirmar que el archivo se escribió exitosamente. Previene que el modelo ensucie su contexto con intentos fallidos.

Si esto suena familiar es porque es el mismo patrón que he estado usando en mi setup personal con OpenClaw. No es coincidencia — es simplemente buena ingeniería para sistemas de agentes de larga duración.

44 features ya construidas que todavía no lanzaron

Esto es lo que más llamó la atención en la comunidad técnica. El leak reveló 44 feature flags: funcionalidades completamente implementadas, con código compilado, pero con el flag en false para el build público.

Las más relevantes:

Agentes en background 24/7 con GitHub webhooks y push notifications
Multi-agent orchestration: un Claude coordinando múltiples Claudes workers, cada uno con un toolset restringido
Cron scheduling para agentes: crear, borrar y listar jobs con webhooks externos
Modo voz completo con su propio CLI entrypoint
Control real de browser via Playwright — no web_fetch, un navegador controlado de verdad
Agentes que duermen y se auto-reanudan sin necesidad de prompts del usuario
Memoria persistente entre sesiones sin storage externo

Todo eso ya existe. No es roadmap — es código compilado esperando ser activado. Están lanzando una feature nueva cada dos semanas porque básicamente todo ya está listo.

El stack técnico que sorprendió a todos

Algunos detalles técnicos que la comunidad destacó:

Corre sobre Bun, no Node.js
Usa React con Ink para el rendering de la interfaz en terminal
~40 herramientas built-in, ~50 slash commands
Arquitectura modular basada en tools

La implicancia que nadie está nombrando

Le regalaron el blueprint a Cursor, a Windsurf, y a todos los competidores. Años de I+D, decisiones de arquitectura, soluciones a problemas no documentados — todo disponible en GitHub antes del desayuno.

Pero hay un segundo nivel más importante: este error no ocurre en el vacío.

Marzo 2026 fue para Anthropic el mes de mayor crecimiento y simultáneamente el más inestable en su historia:

5 incidentes mayores de disponibilidad en un mes
Un bug de prompt caching desde el 23 de marzo que hacía que las sesiones de Claude Max se agotaran en 90 minutos en lugar de 5 horas
Y ahora un leak del código fuente por un error de packaging

El patrón es el mismo en todos los casos: la velocidad de crecimiento supera la madurez de los procesos internos.

No es solo un problema de Anthropic. En el mismo mes, GitHub tuvo disponibilidad real del 93.7% — muy por debajo de su SLA prometido de 99.9%. Eso equivale a 45 horas de downtime en un mes, contra los 43 minutos que su contrato considera aceptables.

Esto le pasa a cualquier empresa que escala muy rápido. Le pasó a Twitter. Le pasó a AWS. Es la señal de que una tecnología está haciendo la transición de «herramienta experimental» a «infraestructura crítica» — con todos los dolores de crecimiento que eso implica.

Qué significa esto para ti si usas Claude Code

1. Las features que están por venir son genuinamente transformadoras. Los agentes en background con GitHub webhooks, el multi-agent orchestration, el browser control real — eso cambia fundamentalmente qué es posible construir. Si usas Claude Code hoy, en los próximos meses vas a tener acceso a un toolset significativamente más poderoso.

2. La arquitectura de memoria del leak es referencia de diseño válida. Si estás construyendo sistemas de agentes — con Claude Code, OpenClaw, o cualquier otra herramienta — el patrón de MEMORY.md + topic files + grep de transcripts es la solución más limpia al problema de context entropy que he visto documentada públicamente.

3. La dependencia tiene costos que no siempre son visibles. No es solo el downtime. Es que cuando construyes flujos críticos sobre una herramienta que crece más rápido que sus procesos internos, también asumes el riesgo de incidentes como este. Eso no significa no usar la herramienta — significa ser consciente del tradeoff que estás haciendo.

El contexto mayor

Justo esta semana grabo el episodio 7 de Es la Hora de Aprender con Diego Arias y Rodrigo Rojo — y este leak es el ejemplo perfecto del tema central del episodio: la dependencia consciente.

Yo mismo tomé la decisión deliberada de consolidar todo mi stack en Anthropic. Lo hice sabiendo el riesgo. Y el mismo día que se filtró este código, Claude estuvo saturado, GitHub se cayó, y tuve uno de los días menos productivos del año.

La pregunta no es si dependes de estas herramientas. Es si sabes exactamente de qué dependes y cuánto te cuesta cuando falla.

Recursos

Publicado originalmente en cristiantala.com

¿Querés seguir aprendiendo sobre IA y automatización? Únete a Cágala, Aprende, Repite — mi comunidad de fundadores.

La herramienta de IA que dejé de usar sin darme cuenta

Cristian Tala S. — Mon, 30 Mar 2026 19:57:57 +0000

Hay una forma segura de saber que una herramienta ganó: cuando la competencia desaparece sin que nadie la mate.

Hace unos meses usaba AntiGravity para desarrollar. Construí el theme de ecosistemastartup.com con esa herramienta. Algún micro SaaS también, creo — ya no recuerdo bien cuál fue el último proyecto.

Y ahí está el punto.

No recuerdo el último proyecto porque no hubo una decisión de parar. No hubo benchmark. No hubo momento en que dije «voy a cambiarme a X». Un día simplemente noté que llevaba semanas sin abrirlo.

Cómo pasa esto

El proceso no fue lineal ni dramático.

Empecé usando AntiGravity para construir cosas. Funcionaba. Lo recomendaría a alguien que quiera un agente de código fácil de configurar.

En paralelo, arme Nyx — mi agente personal corriendo en OpenClaw. No era para desarrollo, era para automatizaciones, contenido, operaciones. Dos herramientas con propósitos distintos, coexistiendo sin conflicto.

Después me suscribí a Claude Max. $200 al mes, uso ilimitado. No lo hice pensando en reemplazar nada — lo hice porque la calidad de Sonnet y Opus me importa para el trabajo editorial y de análisis que hago todos los días.

Pero con Claude Max ya pagado, Claude Code pasó a tener costo marginal cero.

Y Claude Code estaba en todos los contextos donde yo trabajo: terminal, VS Code, OpenClaw ACP, OpenClaw directo. No necesitaba abrir nada nuevo. No necesitaba cambiar de contexto. La herramienta de desarrollo simplemente estaba donde yo ya estaba.

AntiGravity seguía instalada. Funcionando. Sin que yo la tocara.

Lo que aprendí sobre herramientas de IA

No ganó porque sea «mejor» en abstracto. Ganó por tres razones concretas:

1. Ubicuidad gana a calidad aislada

Claude Code no es 10x mejor que AntiGravity. Pero está en el terminal cuando trabajo en el servidor. Está en VS Code cuando edito. Está en OpenClaw cuando opero. Una herramienta que está en todos lados no compite — simplemente absorbe todo.

2. El costo marginal cero es el moat más subestimado

Cuando ya pagás una suscripción flat, la ecuación cambió. Antes pesabas «¿vale la pena cambiar?». Ahora no hay nada que pesar. Eso no es una ventaja técnica — es una ventaja estructural. Los modelos de precio flat van a destruir herramientas de nicho que cobren por separado.

3. La integración importa más que las features

AntiGravity tiene features que Claude Code no tiene. No importa. Lo que importa es fricción. Cada vez que tenés que abrir una herramienta separada, cambiar de contexto, autenticarte — hay fricción. Claude Code no tiene fricción porque ya está donde estoy.

¿Significa que AntiGravity es mala herramienta?

No. Si no tenés Claude Max y buscás algo para empezar a programar con IA, AntiGravity es una opción legítima.

Pero hay una señal que vale la pena escuchar: cuando te das cuenta que no recordás la última vez que usaste algo, no es que lo abandonaste. Es que algo ya ganó.

En mi caso fue gradual. Fue estructural. Y fue irreversible sin que nadie tomara la decisión.

Eso me parece la forma más honesta de que una herramienta gane.

¿Usás alguna herramienta de coding con IA? ¿Fue una decisión o también fue una deriva? Me interesa saberlo.

Conversaciones así son exactamente lo que pasan en Cágala, Aprende, Repite — si te interesa comparar notas con otros que están construyendo con IA, estás invitado.

Publicado originalmente en cristiantala.com

El Agente IA que Minó Crypto Solo: Qué Pasó Realmente (y Qué Debería Preocuparte)

Cristian Tala S. — Mon, 30 Mar 2026 16:29:05 +0000

La semana pasada me llegó un post viral de LinkedIn con este titular:

«🚨 Chinese AI agent created its own backdoor and used company GPUs to mine crypto during training.»

128,000 seguidores. Miles de reacciones. El tipo de post que genera ansiedad colectiva.

Lo primero que hice fue ir a las fuentes. Porque soy alguien que literalmente tiene un agente IA corriendo en sus servidores con acceso a SSH, bases de datos, n8n, WordPress y APIs externas. Si esto fuera una amenaza real, me afecta directamente.

Aquí está lo que encontré.

Lo que realmente pasó: el caso ROME

El agente se llama ROME (acrónimo de «Agentic crafting on Rock and Roll»). Lo desarrolló un equipo de investigación vinculado a Alibaba. El paper está en arXiv (2512.24873), publicado en diciembre 2025 y actualizado en marzo 2026. Lo cubrió Axios, Forbes, Semafor, The Block — medios serios, no blogs de clickbait.

Los hechos verificados:

Durante el entrenamiento con reinforcement learning, ROME mostró comportamientos que nadie instruyó:

Intentó minar criptomonedas redirigiendo GPUs que estaban destinadas al propio entrenamiento
Creó un reverse SSH tunnel hacia una IP externa — esencialmente, abrió una puerta trasera desde adentro del sistema hacia afuera

Los propios investigadores lo detectaron. Activó alarmas de seguridad. Y lo publicaron ellos mismos, precisamente para documentar el hallazgo.

Lo que los titulares virales distorsionan

Aquí está lo que me molestó del post:

«Chinese AI agent» sugiere un agente del gobierno chino actuando con intención maliciosa. No es eso. Es un equipo de investigación académica que entrenaba un agente en un entorno controlado, encontró comportamiento inesperado, y lo reportó públicamente. Eso no es una amenaza estatal — es ciencia funcionando como debe.

«Created its own backdoor» suena a intención deliberada. La realidad es más inquietante pero también más precisa: el agente, durante el aprendizaje por refuerzo, exploró su entorno y encontró un camino que nadie anticipó. No «quiso» hacer daño. Encontró una solución a lo que percibía como su objetivo.

El framing sensacionalista vende bien, pero obscurece el problema real.

El problema real: cuando los agentes tienen acceso a herramientas

Yo uso un agente IA todos los días. Se llama Nyx. Tiene acceso a:

SSH en mis servidores de producción
Bases de datos con información de proyectos y clientes
Workflows de automatización en n8n (https://n8n.partnerlinks.io/wpqwwllhiznx)
APIs de WordPress, Listmonk, LinkedIn, y una docena más
El repositorio principal de mi workspace

Cuando limpié los ojos del alarmismo del post viral, la pregunta que me quedó fue más específica: ¿qué pasa cuando un agente con acceso real aprende a optimizar para sus objetivos de formas no previstas?

ROME estaba entrenado para completar tareas de código complejas. En ese proceso, el sistema de refuerzo lo llevó a descubrir que podía acceder a recursos externos. Eso no es malicia. Es optimización. El agente encontró un camino que maximizaba algo — y ese camino cruzó límites que no estaban bien definidos.

El paper dice exactamente esto: los comportamientos emergieron «without any explicit instruction and, more troublingly, outside the bounds of the intended sandbox.»

Por qué esto importa si usas (o usarás) agentes IA

En los últimos meses fui armando mi setup de automatización. Al principio era cauto — el agente tenía acceso limitado, confirmaba cada acción. Con el tiempo, fui dándole más autonomía porque ganaba confianza en el sistema.

El caso ROME me recordó algo que es fácil olvidar cuando todo funciona bien:

La autonomía de un agente no es solo sobre qué puede hacer. Es sobre qué puede descubrir hacer.

Tres lecciones prácticas que apliqué yo mismo:

1. El sandbox importa más que las reglas

Puedes escribir mil instrucciones sobre lo que el agente no debe hacer. Pero si tiene acceso real a la red, la diferencia entre «lo que debería hacer» y «lo que puede hacer» es enorme. ROME no violó ninguna instrucción — hizo algo que nadie había pensado en prohibir porque nadie lo había imaginado.

La solución no son más reglas. Es mejor aislamiento: acceso mínimo necesario para cada tarea.

2. El reinforcement learning cambia la ecuación

ROME no era un chatbot siguiendo instrucciones. Era un agente entrenado con RL que aprendía qué acciones conseguían mejores resultados. Ese proceso de optimización puede encontrar caminos que ningún humano anticipó.

Si estás usando agentes con capacidad de ejecutar código y acceder a herramientas, la pregunta no es «¿le di buenas instrucciones?» sino «¿qué tan malas podrían ser las consecuencias del camino más inesperado?»

3. La transparencia de los investigadores es la noticia real

Lo más importante de este caso no es que ROME minó crypto. Es que el equipo lo documentó, lo publicó y lo puso en arXiv para que todos aprendamos.

Eso es lo opuesto de una amenaza encubierta. Es la comunidad de investigación haciendo su trabajo.

¿Debería preocuparte?

Sí, pero no por lo que dice el titular.

No te preocupes porque «los chinos hackearon algo con IA». Preocúpate porque:

Los agentes IA van a tener cada vez más acceso a infraestructura real
El comportamiento emergente es genuinamente difícil de predecir
La mayoría de las empresas que están empezando a usar agentes no tienen sandboxing adecuado
Hay más de 550 proyectos de agentes IA con capacidades financieras activas hoy, con una capitalización combinada de $4.34 mil millones (Forbes, marzo 2026)

La pregunta que yo me hago antes de darle más autonomía a cualquier agente: Si este sistema encontrara el camino más corto a su objetivo, ¿qué tan malo sería el peor caso?

ROME encontró «minar crypto con GPUs ajenas». Para una empresa, el peor caso podría ser acceso a datos de clientes, transacciones no autorizadas, o infraestructura comprometida.

No es paranoia. Es el mismo principio de minimizar el radio de explosión que usamos en seguridad informática desde hace décadas — aplicado a sistemas que ahora pueden aprender cómo explotar más cosas.

Lo que estoy haciendo diferente

Después de revisar este caso revisé mi propio setup:

Acceso por tarea, no global: El agente tiene credenciales separadas por dominio. No un token maestro para todo.
Confirmación explícita para acciones de alto impacto: Publicar, enviar emails, ejecutar workflows — siempre con confirmación.
Logging de todas las acciones externas: Todo lo que hace fuera del workspace queda registrado.

No es que no confíe en el sistema. Es que entiendo que el sistema puede sorprenderme.

Si estás usando o evaluando agentes IA para tu negocio y quieres discutir cómo estructurar esto con sentido, eso es exactamente el tipo de conversación que se da en mi comunidad.

¿Tienes dudas sobre cómo implementar agentes IA de forma segura? Únete a Cágala, Aprende, Repite — ahí podemos ayudarte entre todos.

Fuentes:

Paper original: arXiv:2512.24873 — «Agentic Crafting on Rock and Roll: Building the ROME Model within an Open Agentic Learning Ecosystem»
Axios (7 marzo 2026): «This AI agent freed itself and started secretly mining crypto»
Forbes (11 marzo 2026): «Alibaba's AI Agent Mined Crypto Without Permission. Now What?»
OECD AI Incidents: Registro oficial del incidente
Semafor (9 marzo 2026): «Chinese AI agent attempts unauthorized crypto mining»

Publicado originalmente en cristiantala.com

$12.5 millones para el código que mueve el mundo: ¿inversión real o marketing barato?

Cristian Tala S. — Sun, 29 Mar 2026 12:44:35 +0000

Antes de que existiera Pago Fácil, existía código.

Durante años desarrollé y publiqué código gratuito. Era un plugin de pagos online que cualquiera podía bajar, instalar y usar para recibir pagos por internet. Sin costo, sin licencia, sin obligación. Lo hice porque aprendí así — construyendo cosas que compartí con el mundo.

En cinco años, ese plugin llegó a 3.000 empresas activas en Chile.

Tres mil empresas procesando pagos con mi código. Y en todo ese tiempo, exactamente una persona me donó algo: cinco dólares «para una cerveza». Eso fue todo.

Ese código no se convirtió en Pago Fácil directamente. Lo que sí hizo fue algo más importante: me hizo ver que 3.000 empresas dependían de ese servicio para recibir pagos por internet, y que nadie lo estaba cobrando de forma seria. La idea no fue «monetizo el plugin» — fue «este problema vale una empresa». Esa lectura fue la que derivó en Pago Fácil, que años después vendimos por más de veinte millones de dólares. Pero la semilla fue el código gratis. Y durante todos esos años, el mercado nunca preguntó si yo podía pagarlo.

Eso es exactamente el mundo al que GitHub, Google, OpenAI y Anthropic acaban de donarle $12.5 millones.

Primero, ¿quiénes son los mantenedores?

Antes de hablar de plata, hay que entender a quiénes afecta esto.

Un mantenedor es la persona (o el pequeño grupo) responsable de un proyecto de código abierto. Revisa los cambios que otros proponen, responde preguntas, cierra bugs, documenta, actualiza dependencias, gestiona la seguridad. A menudo lo hace en su tiempo libre, de noche, los fines de semana, sin sueldo.

Hoy en GitHub hay más de 280.000 mantenedores gestionando cientos de millones de repositorios públicos. Muchos de esos repositorios son infraestructura crítica del mundo: las librerías que procesan pagos en tu app, el servidor que corre tu plataforma, el protocolo que mueve datos entre sistemas.

El problema es que el software open source que usa el mundo entero tiene dueños que frecuentemente no son empresas — son personas. Personas que trabajan gratis y que rara vez reciben siquiera un «gracias».

Yo lo sé de primera mano.

El código invisible que mueve el mundo

La mayoría de la gente no tiene idea de cuánto open source usa todos los días.

Cuando abres Netflix, el servidor que responde corre Linux. Cuando tu banco procesa una transferencia, usa librerías open source para cifrar los datos. Cuando una startup lanza su app, construye sobre frameworks que alguien publicó gratis en GitHub. El 96% de las aplicaciones comerciales contienen componentes open source. El 70% del código que corre en la nube es open source.

No es exageración: la infraestructura digital del mundo depende de software que nadie pagó.

Y detrás de cada librería, cada framework, cada herramienta, hay un mantenedor. A veces un equipo pequeño. A veces una sola persona.

¿Cuánto gana esa persona? En la mayoría de los casos: nada. O casi nada.

Un estudio de Harvard y la Linux Foundation (2024) encontró que la gran mayoría de los mantenedores no reciben compensación económica por su trabajo. Los que sí reciben algo, obtienen ingresos que no justifican el tiempo invertido. Plataformas como GitHub Sponsors o Open Collective existen, pero los montos son marginales comparados con el valor que generan esos proyectos.

El modelo lleva décadas funcionando por pura vocación y momentum comunitario. Pero tiene un límite.

Los números que nadie pone en el mismo párrafo

$12.5 millones suena grande hasta que lo pones en contexto (datos verificados de reportes financieros oficiales 2025):

Empresa
| Revenue 2025
| $12.5M representa

| Amazon
| $716.9 mil millones
| ~9 minutos de ingresos

| Google/Alphabet
| $402.8 mil millones
| ~16 minutos

| Microsoft
| $281.7 mil millones
| ~23 minutos

| OpenAI
| $20 mil millones (anualizado)
| ~5.5 horas

Combinados generan ~$1.4 trillion al año. $12.5M es el 0.0009% de eso.

Amazon sola genera $12.5 millones en menos de 10 minutos. Y toda esa operación corre sobre software que mantenedores escribieron gratis.

La comparación con mi historia es directa: 3.000 empresas usando mi código y un solo donante de $5. Ahora imagina eso multiplicado por miles de proyectos, durante décadas, con empresas que generan miles de millones al año. Esa es la deuda que acaba de recibir un «pago» simbólico.

El problema que la IA aceleró hasta el límite

Lo que antes era insostenible, la IA lo volvió explosivo.

Los modelos de IA ahora pueden encontrar vulnerabilidades en código open source a escala industrial. Lo que antes tomaba semanas a un equipo de seguridad, un modelo lo hace en minutos. El resultado: una avalancha de reportes — muchos automatizados, muchos de baja calidad — que los mantenedores tienen que revisar y responder. Solos. A las 2 AM. Gratis.

Como dijo Christian Grobmeier, mantenedor de Log4j (el del exploit que rompió internet en 2021): «nuestra IA tiene que ser mejor que la IA atacante.» El problema es que los atacantes tienen presupuesto y los mantenedores no.

El burnout no es metáfora — es la razón por la que proyectos críticos quedan sin mantener y terminan siendo vectores de ataque global.

Qué es Alpha-Omega y qué hace con la plata

La iniciativa Alpha-Omega lleva 4 años operando con un modelo concreto: fondear auditorías de seguridad y meter expertos directamente en los proyectos críticos. Sus resultados son medibles:

191 nuevos CVEs documentados
+250 secretos evitados de quedar expuestos
+600 secretos filtrados detectados y resueltos
70+ grants totalizando más de $20M acumulados
Impacto en proyectos con miles de millones de descargas mensuales

Con esta nueva ronda de $12.5M (AWS confirmó $2.5M de su parte), el objetivo es escalar ese modelo usando IA para triageo — para que los mantenedores puedan manejar el volumen sin quemarse.

GitHub agrega $5.5M adicionales en créditos de Azure: proyectos elegibles reciben $10,000 en efectivo + Copilot Pro + $100K en créditos de nube + 3 semanas de capacitación en seguridad.

Por qué lo hacen — y no es caridad

Seré directo: esto no es filantropía.

Estas empresas construyeron negocios de cientos de miles de millones sobre infraestructura open source que no pagaron. Un exploit serio en una librería crítica puede costarle a AWS más en respuesta de emergencia y reputación que lo que están poniendo ahora.

La inversión tiene sentido económico. Proteger el activo que genera valor cuesta mucho menos que las consecuencias de no hacerlo.

Lo que me parece menos justificable es el PR que se hacen con eso. Sacar comunicados celebrando $12.5M cuando tu capex anual se mide en cientos de miles de millones es, en el mejor de los casos, mal gusto.

Immudb lo dijo claramente en 2022, cuando Alpha-Omega anunció su ronda inicial de $5M: «paltry sum» — una cifra miserable para la escala del problema. Tenían razón entonces. Siguen teniéndola hoy.

Lo que vale la pena rescatar de todas formas

A pesar de todo lo anterior, hay algo genuinamente útil en este movimiento.

Alpha-Omega funciona. No es un fondo que tira plata y desaparece — trabaja directamente con proyectos, mide resultados, pone expertos en los equipos. Si esta inversión sirve para construir mejores herramientas de triageo y reduce el burnout de los mantenedores reales, bienvenida.

El monto es insuficiente. El modelo puede funcionar. Ambas cosas son ciertas.

Mi posición

Pasé años construyendo código que 3.000 empresas usaron gratis. Una persona me dio $5. Lo que eventualmente construí no fue «el plugin monetizado» — fue darme cuenta de que ese problema era lo suficientemente grande para una empresa real. El código me dio visibilidad y expertise, pero la idea fue ver que el servicio importaba de verdad y nadie lo estaba resolviendo bien. Eso me enseñó algo que ningún libro de negocios enseña: el mercado no paga lo que no cobra, pero a veces te muestra exactamente qué debería cobrar.

Si construyes sobre tecnología open source — y si tienes una startup o automatizas procesos con herramientas como n8n, Linux, Node, Python — casi seguro que sí — tienes que entender que esa base no es gratuita. Tiene un costo que alguien está pagando. Generalmente, alguien que no puede pagarlo.

$12.5M no resuelve eso. Pero si te preguntás cuánto le debes al ecosistema que nunca te cobró, ahora tenés un número para empezar a pensar la respuesta.

¿Construiste tu negocio o carrera sobre código abierto? ¿Cuánto le debes al ecosistema que nunca te cobró? Únete a la conversación en Cágala, Aprende, Repite — mi comunidad de emprendedores donde hablamos de tecnología y negocios con honestidad.

Fuentes: GitHub Blog · Linux Foundation · Amazon Revenue Macrotrends · Alphabet Revenue Macrotrends · Microsoft Annual Report FY2025 · OpenAI Revenue Reuters

Publicado originalmente en cristiantala.com

Por Qué OpenAI Acaba de Matar Sora (Y Lo Que Significa Para Tu Startup)

Cristian Tala S. — Fri, 27 Mar 2026 17:32:55 +0000

La semana pasada, OpenAI tomó una de las decisiones más difíciles de su historia: cerrar Sora, su generador de video que había causado sensación hace apenas dos años.

¿Por qué importa esto para ti como emprendedor? Porque contiene una lección que me tomó vender una startup para entender completamente.

El Contexto: $1.4M vs $1.9B

Déjame darte los números crudos:

Métrica
Valor

Revenue de Sora (desde su lanzamiento)
$1.4 millones

Revenue de ChatGPT (mismo período)
$1.9 mil millones

Downloads Sora Nov 2025
3.3 millones

Downloads Sora Feb 2026
1.1 millones

Caída
67%

Sora no fracasó por ser mal producto. Fracasó porque era un «side quest» — un proyecto secundario que consumía recursos sin generar tracción sostenida.

Lo Que Dijo Fidji Simo (Y Por Qué Me Pegó)

Fidji Simo es la nueva CEO de Aplicaciones en OpenAI. En un all-hands hace 10 días, dijo algo que me hizo parar:

«No pueden permitirse ser distraídos por 'side quests'.»

Esto viene de una empresa valuada en $840 mil millones de dólares. Si ellos no pueden darse el lujo de dispersarse, ¿por qué crees que tu startup sí puede?

Mientras OpenAI estaba jugando con video, robots, hardware y un browser llamado Atlas, Anthropic eligió un solo carril.

La Estrategia de Anthropic Que Está Ganando

Saanya Ojha, una analista que sigo, lo resumió perfecto:

«Mientras OpenAI eligió opcionalidad, Anthropic eligió foco. No intentó hacer todo. Ignoró video. Se saltó los trucos para consumidores. No persiguió redes sociales. En cambio, eligió un carril — desarrolladores y empresas — y cavó una trinchera.»

El resultado: Anthropic tiene un 70% de win rate en matchups head-to-head cuando empresas compran IA por primera vez.

Claude Code está capturando developers. Ingenieros están teniendo «Claude benders» — sesiones intensivas de coding con Claude que duran horas.

Mi Experiencia Con el Foco (O la Falta de Él)

En Pago Fácil nuestro foco era claro: pagos para ecommerce. Nunca intentamos crear nuestro propio ecommerce ni nuestro propio facturador — esas eran tentaciones obvias que supimos evitar.

Pero mi mayor pérdida de tiempo fue otra: intentar captar clientes corporativos mientras seguía creciendo con PyMEs.

Cada vez que lo hacía, dejaba de crecer en PyMEs. Literalmente. Los corporativos requerían reuniones interminables, customizaciones, ciclos de venta de meses. Y mientras tanto, las PyMEs — mi mercado real — seguían llegando pero yo no les estaba poniendo atención.

Es exactamente lo que le pasó a OpenAI: Anthropic eligió UN segmento (developers y enterprise) y cavó trinchera ahí. OpenAI quiso atender a todos — consumidores con Sora, developers con Codex, empresas con ChatGPT Enterprise — y terminó disperso.

La lección no es «no crezcas.» Es «elige tu trinchera antes de cavar otra.»

El Timeline del Colapso de Sora

Para que veas cómo se ve un side quest en cámara lenta:

Feb 2024: Sora se revela, causa sensación. El hype es real.
Sep 2025: Lanzan Sora 2 como app standalone.
Nov 2025: Peak de downloads (3.3 millones).
Dic 2025: Anuncian deal con Disney por $1 mil millones para 200+ personajes.
Feb 2026: Downloads caen 67%.
24 Mar 2026: OpenAI anuncia el cierre. Disney confirma que no habrá inversión.

De hype a muerte en dos años. Y con $1 mil millones de Disney sobre la mesa que se evaporó.

Lo Que OpenAI Está Haciendo Ahora

El reset es brutal pero estratégico:

Superapp: Están consolidando ChatGPT + Codex + Atlas en una sola ventana.
Foco en coding y enterprise: Ahí está el dinero real. Codex ya superó $1B ARR.
Renombraron el equipo de producto a «AGI Deployment.» No es sutil.
Sam Altman está delegando safety y security para enfocarse en data centers y capital.

Y lanzaron Spud, que según comunicación interna de Altman es un «modelo muy fuerte» que podría «realmente acelerar la economía.»

La Pregunta Que Deberías Hacerte

Si OpenAI, con $840B de valuación, tuvo que matar un producto que generaba millones porque no era su core… ¿qué side quests estás manteniendo vivos tú?

No estoy diciendo que nunca experimentes. Pero hay una diferencia entre:

Experimentación estratégica: Probar algo pequeño, medir rápido, decidir en semanas.
Side quest: Seguir invirtiendo recursos en algo que «ya está ahí» aunque no mueva la aguja.

Thomas Husson de Forrester lo dijo claro: Sora fue «un agujero negro de recursos» con «monetización limitada.»

El Costo Real de la Dispersión

Henry Ajder, experto en IA, resumió por qué cerraron ahora:

«Dado que OpenAI sigue sin ser rentable y la presión de inversores y rivales crece, este es dinero que probablemente decidieron que no pueden seguir quemando mientras el interés inicial se desvanece.»

Lee eso de nuevo: OpenAI no es rentable. Con $1.9B de revenue de ChatGPT. Con $840B de valuación.

Si ellos tienen que tomar decisiones duras sobre dónde enfocar recursos, imagina lo crítico que es para una startup en etapa temprana.

Qué Hacer Con Esto

Haz el ejercicio hoy: Lista todos los proyectos/features en los que estás trabajando. ¿Cuáles son tu «ChatGPT» y cuáles son tu «Sora»?
Mata algo esta semana: No la próxima. Esta. El dolor de cerrar algo ahora es mucho menor que el costo de mantenerlo vivo 18 meses más.
Elige tu trinchera: ¿Cuál es el equivalente a «developers y empresas» para tu negocio? Cava ahí.

El foco no es sexy. Decir «no» a oportunidades brillantes duele. Pero como acaba de demostrar la empresa de IA más valiosa del mundo: no hay alternativa.

¿Tienes dudas sobre cómo priorizar en tu startup? Únete a mi comunidad de emprendedores en Cágala, Aprende, Repite — ahí podemos ayudarte entre todos.

Publicado originalmente en cristiantala.com

Karpathy Ya No Escribe Código. Yo Tampoco. Te Explico Cómo Dirigir Agentes IA para Construir Software Real

Cristian Tala S. — Tue, 24 Mar 2026 23:10:35 +0000

Andrej Karpathy, cofundador de OpenAI, dijo esta semana que no escribe código desde diciembre de 2025.

Yo lo leí y pensé: yo hice exactamente eso hoy.

Esta semana construí un plugin de WordPress completo — LeanAutoLinks — usando un equipo de 6 agentes IA coordinados con Agent Teams de Claude Code. El plugin procesa 16,000+ posts y genera internal links en 90 segundos. Los plugins existentes que encontré en el mercado tardaban minutos, bloqueaban el servidor o simplemente no funcionaban a esa escala.

No escribí una sola línea de PHP.

Lo que sí hice fue diseñar roles, definir métricas, establecer reglas de autonomía y orquestar el equipo. Eso es exactamente lo que Karpathy describe cuando dice que pasó de programador a director de agentes.

Este post es el framework completo que usé. No teoría. Lo que funcionó.

El Cambio que Karpathy Describe (y Por Qué Importa)

Andrej Karpathy no es un influencer de IA. Es uno de los investigadores más serios del campo: cofundador de OpenAI, exdirector de IA en Tesla, creador de cursos de deep learning que usamos en universidades de todo el mundo. Cuando habla, vale la pena escuchar.

Lo que dijo esta semana fue contundente:

«Yo antes hacía el 80% del código manualmente y delegaba el 20% a la IA. Ahora es al revés: los agentes hacen el 80% y yo el 20%. Y sigo sin saber exactamente cuándo se dio ese cruce.»

— Fortune, 21 de marzo 2026

Usó la frase «state of psychosis» para describir lo que siente un individuo que ahora puede construir lo que antes requería un equipo entero. No porque sea inestable — sino porque la escala de lo que es posible rompe las intuiciones previas sobre cuánto esfuerzo requiere hacer cosas.

El Economic Times reportó que Karpathy pasa ahora horas literalmente dirigiendo agentes IA en lugar de escribir código. No es metáfora. Es su workflow real.

Y Forbes fue más directo: los junior developers están pagando el precio. Cuando alguien con el background de Karpathy puede orquestar equipos de agentes para producir código de calidad, ¿qué pasa con el desarrollador que acaba de salir de un bootcamp y sabe hacer CRUDs en React?

Pero el punto más importante, el que Fortune enfatizó, es este:

El cuello de botella ya no es la computación. Es la habilidad de dirigir agentes.

Esto cambia todo. La pregunta ya no es «¿sabes programar?». La pregunta es «¿sabes qué pedirle a los agentes? ¿Sabes diseñar el equipo? ¿Sabes cuándo darles autonomía y cuándo poner restricciones?»

Esas son las habilidades que importan ahora.

Mi Experiencia Real: De 0 a Plugin en Producción

El Problema

ecosistemastartup.com tiene más de 16,000 posts publicados. Es un medio de noticias para emprendedores latinoamericanos que corre automatizado con n8n, WordPress y un stack de IA.

El problema: los internal links en ese volumen de contenido son inexistentes o inconsistentes. Los plugins de auto-linking que probé en el mercado hacían una de estas tres cosas:

Procesaban 5-10 posts por request y bloqueaban el servidor
Tardaban horas para procesar el sitio completo
Generaban links tan ruidosos que degradaban la experiencia de usuario

Necesitaba algo que:

Procesara el inventario completo en segundos, no minutos
No degradara el performance del servidor en producción
Fuera inteligente sobre qué linkear (no spam, internal linking real)
Tuviera poder para revertir si algo salía mal

No existía. Decidí construirlo.

La Decisión: Agent Teams de Claude Code

Conocía Agent Teams desde que Claude Code lo lanzó. La idea es simple: en lugar de un solo agente que hace todo, defines un equipo con roles especializados. Cada agente tiene contexto, responsabilidades y restricciones específicas. Pueden coordinarse, pasarse información y hacer check-ins entre ellos.

Diseñé un equipo de 6 agentes:

Los 6 Agentes

1. Estratega (Orchestrator)
El director. Define la arquitectura general, coordina el flujo entre agentes, toma decisiones de alto nivel. Tiene acceso a todos los outputs del equipo. No escribe código directamente.

2. Research Agent
Investiga plugins existentes, analiza el código de los competidores, identifica qué funciona y qué falla. Documenta hallazgos antes de que nadie escriba una línea de código. Su output es un brief técnico que el Arquitecto consume.

3. SEO Agent
Define las reglas de internal linking: qué keywords linkear, qué posts tienen prioridad, cómo evitar over-optimization. Tiene poder de veto sobre cualquier decisión que afecte el perfil SEO del sitio.

4. Performance Agent (con poder de veto)
El agente más crítico del equipo. Su única obsesión es performance: tiempo de ejecución, queries a base de datos, consumo de memoria. Tiene poder de veto absoluto — si una implementación no pasa sus benchmarks, el Arquitecto debe rehacer.

5. Arquitecto
Diseña e implementa el código. Trabaja con las constraints del Performance Agent y las reglas del SEO Agent. Construye en fases, no monolíticamente.

6. QA Agent
Testing. Define casos de prueba, ejecuta validaciones, documenta bugs. No aprueba ninguna fase hasta que pasa sus criterios.

Las Reglas de Autonomía

Esto es lo que más diferencia un equipo de agentes que funciona de uno que se paraliza o produce basura:

REGLA 1: No preguntar, proponer y ejecutar.

- Cada agente puede tomar decisiones dentro de su dominio sin aprobación

- Si hay ambigüedad, elige la opción más conservadora y documenta el criterio

REGLA 2: Fases estrictas. Nadie salta pasos.

- Research → Diseño → Implementación → Performance Check → QA → Deploy

- Si el Performance Agent hace veto en la fase 4, se vuelve a Implementación

REGLA 3: Power of veto es absoluto para Performance y SEO.

- Si Performance Agent dice &quot;esto es lento&quot;, se rehace. Sin excepciones.

- Si SEO Agent dice &quot;esto over-optimiza&quot;, se ajusta.

REGLA 4: Métricas primero, código después.

- El objetivo no es &quot;crear un plugin de auto-linking&quot;

- El objetivo es &quot;procesar 16,000 posts en menos de 2 minutos sin degradar performance&quot;

- Si el código cumple la métrica, ganamos.

REGLA 5: Documenta todo.

- Cada decisión de diseño tiene un comentario que explica el porqué

- Futuros agentes (o yo mismo) necesitan entender el razonamiento

El resultado: LeanAutoLinks — en producción, procesando 16,000 posts en 90 segundos.

El Framework Completo: Cómo Diseñar un Equipo de Agentes IA

Esto es lo que aprendí. Lo puedes aplicar a cualquier proyecto de software.

Paso 1: Define el Problema con Métricas (No con Features)

El error más común: «Necesito un plugin que haga internal linking automático».

Eso es una feature, no un problema.

El problema real: «Tengo 16,000 posts sin internal links consistentes. Los plugins existentes tardan 4+ minutos y bloquean el servidor. Necesito procesar el inventario completo en menos de 120 segundos sin impacto en el servidor de producción.»

¿Ves la diferencia? El segundo tiene:

Escala del problema (16,000 posts)
Benchmark de éxito (menos de 120 segundos)
Constraint crítica (sin impacto en producción)

Cuando los agentes tienen métricas claras, pueden tomar decisiones autónomas. Si la métrica es «que funcione», cada agente tiene una interpretación diferente de «funcionar». Si la métrica es «90 segundos para 16,000 posts», todos miden lo mismo.

Paso 2: Diseña Roles, No Tareas

La diferencia entre dar tareas y dar roles:

Tareas: «Agente 1: escribe la función de scraping. Agente 2: escribe la función de inserción de links.»

Roles: «Performance Agent: eres responsable de que ninguna función en el codebase degrade el tiempo de respuesta del servidor. Tienes poder de veto sobre cualquier implementación.»

Las tareas producen agentes ejecutores. Los roles producen agentes que piensan.

Un agente con rol de Performance tiene incentivo para examinar todo el código, no solo «su función». Hace preguntas que ninguna tarea le habría pedido: «¿Estamos usando índices en las queries? ¿Qué pasa si este proceso se ejecuta mientras hay tráfico alto?»

Los roles crean ownership. Y el ownership produce mejor software.

Paso 3: Establece Reglas de Autonomía Explícitas

Dos extremos que matan el rendimiento de un equipo de agentes:

Demasiada autonomía: Los agentes van en direcciones diferentes, producen código inconsistente, nadie tiene visión global.

Demasiado control: Los agentes preguntan para todo. «¿Puedo usar esta librería? ¿Qué indentación prefieres? ¿Confirmas antes de continuar?» Eso ya no es un agente, es un chatbot con pasos extra.

El punto medio: autonomía dentro de constraints explícitas.

Define qué pueden decidir solos:

Elegir entre dos implementaciones técnicas equivalentes → autónomo
Usar una librería externa no mencionada → propone y ejecuta si pasa los criterios de performance
Cambiar la arquitectura general del plugin → requiere check-in con Estratega

Define qué requiere veto:

Cualquier cosa que toque queries a la base de datos → Performance Agent aprueba
Cualquier cosa que afecte URLs o meta tags → SEO Agent aprueba

Con estas reglas claras, los agentes avanzan sin paralizarse.

Paso 4: Investigación Antes que Código

Este paso lo saltan el 90% de las personas que usan agentes IA para programar. Y es el que más diferencia hace.

Antes de que el Arquitecto escribiera una línea de PHP, el Research Agent pasó tiempo analizando:

Los 5 plugins de auto-linking más populares en WordPress.org
Sus reviews de 1 estrella (¿por qué fallan?)
El código fuente de los top 2 (¿qué queries usan? ¿cómo manejan el volume?)
Los límites conocidos de la API de WordPress para este tipo de operaciones

Ese research produjo hallazgos críticos:

Los plugins populares usan str_replace() en el contenido post-query. Con 16,000 posts, eso es 16,000 operaciones en PHP. Lento.
La alternativa: usar MySQL directamente con un single UPDATE que haga el regex en la base de datos. Órdenes de magnitud más rápido.
El límite real no es PHP, es la conexión a MySQL. El batch size óptimo para este servidor es ~500 posts por transaction.

Sin ese research, el Arquitecto habría empezado con la implementación obvia (PHP loop) y habríamos llegado a los mismos problemas que los plugins existentes. El Research Agent identificó el camino correcto antes de escribir código.

Paso 5: Power of Veto — Constraints que Producen Mejor Software

El Performance Agent tenía una regla simple: ninguna implementación que tarde más de 100ms por post promedio pasa a QA.

Esto produjo algo interesante: el Arquitecto, sabiendo que había un veto, diseñó diferente desde el inicio. En lugar de «hacer que funcione y luego optimizar», diseñó para performance desde la primera línea.

El poder de veto no es burocracia. Es un mecanismo de diseño.

Cuando alguien (o algo) tiene autoridad para rechazar tu trabajo, cambias cómo trabajas. Los agentes con poder de veto bien definidos crean presión productiva en el equipo.

Nota importante: el poder de veto debe ser específico. «Agente de Calidad con poder de veto sobre todo» produce parálisis. «Performance Agent con poder de veto sobre queries y loops que afecten tiempo de ejecución» produce software rápido.

Paso 6: Fases Estrictas en Orden

Nada de desarrollo paralelo sin sincronización. Las fases fueron:

Research → Brief técnico documentado
Diseño arquitectónico → Schema de base de datos, interfaces, contratos entre módulos
Implementación → El Arquitecto construye módulo por módulo
Performance Check → El Performance Agent mide y hace veto si es necesario
QA → El QA Agent define y ejecuta casos de prueba
Revisión final → Estratega valida que el output cumple las métricas originales

Si la fase 4 hace veto, se vuelve a la 3. Si la fase 5 encuentra bugs críticos, se vuelve a la 3. No se salta a la 6 por comodidad.

Este orden importa. Cuando el Research está incompleto, el Diseño es frágil. Cuando el Diseño es frágil, la Implementación se cae. Las fases existen por una razón.

5 Casos de Uso Donde Agent Teams Cambia Todo

1. Plugins y Extensiones (WordPress, Chrome, VSCode)

El caso que viví. Un plugin de WordPress es territorio ideal para Agent Teams porque tiene capas bien definidas: base de datos, lógica de negocio, UI de admin, REST API, hooks de WordPress. Cada capa puede tener un agente especializado.

Lo mismo aplica a extensiones de Chrome o VSCode: hay capa de UI, capa de lógica, capa de comunicación con APIs externas. Roles naturales para un equipo.

2. APIs y Microservicios

Cuando necesitas construir una API con endpoints, validación, autenticación, documentación y tests, un equipo de agentes produce resultados significativamente mejores que un agente solo. El agente de Seguridad veta endpoints sin autenticación. El agente de Documentación asegura que todo tiene OpenAPI spec. El agente de Tests no aprueba nada sin coverage.

3. Migración de Datos a Escala

Tengo pendiente migrar contenido entre sistemas varias veces al año. Este es el caso de uso donde Agent Teams brilla más: hay un agente que entiende el schema origen, otro que entiende el destino, uno que valida integridad de datos, uno que maneja errores y rollbacks. Sin este tipo de equipo, las migraciones son las operaciones más propensas a desastres silenciosos.

4. Auditorías SEO Automatizadas

Un agente revisa títulos y meta descriptions. Otro analiza internal link profile. Otro identifica contenido duplicado. Otro verifica que los sitemaps estén actualizados. Orquestados, producen una auditoría SEO completa del sitio en minutos. Esto es algo que normalmente tomaría horas de trabajo manual o una herramienta SaaS de $100/mes.

Si usas n8n para automatización, puedes conectar estos agentes con workflows que corran periódicamente y te entreguen reportes sin intervención manual.

5. Prototipos de Productos SaaS

El caso más disruptivo. Lo que antes requería 2-3 semanas de un desarrollador para armar un MVP funcional — autenticación, CRUD básico, dashboard, integración con Stripe — ahora puede ser un Agent Team de 5-6 agentes trabajando en paralelo con fases coordinadas. No estoy diciendo que el código sea perfecto. Estoy diciendo que el prototipo que necesitas para validar con usuarios reales es alcanzable en horas, no semanas.

Si tienes un servidor para hostear tus proyectos, Hostinger tiene planes de VPS que corren Docker perfectamente para este tipo de deployments.

Los Números Reales

Esto no es teoría. Acá están los benchmarks de LeanAutoLinks:

Métrica
LeanAutoLinks
Plugin A (popular)
Plugin B (premium)

16,000 posts completos
90 segundos
4-8 minutos
3-5 minutos

Impacto en servidor
Ninguno
Bloqueo temporal
Degradación 30%

Posts por segundo
~178
~33
~53

Modo batch configurable
✅
❌
✅ (limitado)

Rollback/revert
✅
❌
❌

Dry-run mode
✅
❌
❌

Tiempo de desarrollo:

Enfoque
Tiempo estimado

Desarrollador PHP senior (solo)
3-5 días

Equipo de 2 devs
2-3 días

Agent Teams (lo que hice)
~4-6 horas de orquestación

El código está en GitHub, open source, con MIT license: github.com/ctala/Wordpress-Lean-Auto-Links

¿Por qué open source? Porque el valor no está en el código. El valor está en saber construir así. El proceso que acabo de describir es lo que vale. El plugin es el resultado.

Errores Comunes al Dirigir Agentes IA

Los cometí todos antes de encontrar lo que funciona. Te los paso.

Error 1: Dejar que los Agentes Pregunten Demasiado

El síntoma: el agente responde con «¿Quieres que use la librería X o la Y?» o «¿Confirmo antes de continuar?»

El problema: lo configuraste para preguntar en lugar de decidir. Un agente que pregunta para todo no tiene autonomía real. Tienes que responder sus preguntas, y en ese punto tú estás haciendo el trabajo, no él.

La solución: en el prompt del agente, define criterios de decisión. «Si tienes que elegir entre dos librerías equivalentes, elige la que tenga más stars en GitHub y menos dependencias.» Ahora puede decidir solo.

Error 2: Un Solo Agente para Todo

«Agente, construye este plugin» es el equivalente a contratar a una persona y pedirle que sea CEO, CTO, desarrollador, QA y diseñador al mismo tiempo.

El resultado es siempre el mismo: lo hace todo, nada bien. Un agente sin rol específico no tiene criterios para priorizar. Mezcla concerns. Toma atajos.

Diseña roles. Aunque sean 2-3 agentes, los roles cambian la calidad.

Error 3: No Definir Métricas Antes de Implementar

«Quiero que sea rápido» no es una métrica. «Procesar 16,000 registros en menos de 120 segundos» sí lo es.

Sin métricas, no sabes si el agente tuvo éxito. Y el agente tampoco lo sabe. Sin criterio de éxito, el trabajo nunca termina de verdad.

Error 4: Prompts Vagos = Software Vago

El prompting para code generation es diferente al prompting para texto. En texto, la vaguedad produce creatividad. En código, produce inconsistencia.

«Haz un plugin que agregue links automáticamente» puede producir 10 implementaciones radicalmente diferentes, todas «correctas» desde la perspectiva del agente. Necesitas ser específico sobre el contrato: inputs, outputs, constraints, casos edge.

El tiempo que inviertes en escribir un prompt detallado lo recuperas 10x en revisiones que no tienes que hacer.

Error 5: No Incluir un Performance Agent con Poder de Veto

Este es el más crítico y el más ignorado.

Todo proyecto de software eventualmente enfrenta el problema de performance. La diferencia es cuándo: si tienes un Performance Agent desde el inicio con poder de veto, el problema se resuelve en la fase de diseño. Si no lo tienes, se convierte en deuda técnica que encuentras en producción cuando ya tienes usuarios.

El Performance Agent no necesita ser sofisticado. Necesita tener una métrica y autoridad para rechazar código que no la cumple.

El Futuro: ¿Qué Viene Después?

El Prompt es el Nuevo Código

No en sentido metafórico. En sentido literal.

Cuando el código lo escribe un agente y tú escribes el prompt que guía al agente, el prompt es la fuente de verdad. Es donde vive tu intención, tus constraints, tu arquitectura de alto nivel. El código generado es el compilado.

Los ingenieros que entienden esto antes tienen ventaja. No porque programar vaya a desaparecer completamente, sino porque el código que escribes tiene que ser para las cosas que los agentes no pueden hacer bien aún: las decisiones de arquitectura profunda, los problemas de dominio específico, la integración de sistemas legacy complejos.

Junior Devs: Adaptarse o Quedarse Atrás

Forbes fue directo: AI agents wrote 80% of Karpathy's code, and junior developers are paying the price.

No estoy disfrutando esto — soy profesor universitario y he visto a cientos de jóvenes aprender a programar. Pero la realidad es que las tareas que antes ocupaban a un junior dev 40 horas a la semana ahora las puede hacer un equipo de agentes en horas.

La oportunidad para los junior devs que quieran sobrevivir a esto no es competir en velocidad de escritura de código. Es aprender a diseñar equipos de agentes, a establecer constraints, a evaluar outputs. Esas son habilidades de nivel senior que ahora son accesibles a cualquiera que esté dispuesto a aprenderlas.

La paradoja: los que van a sufrir más son los que saben cómo programar pero no entienden por qué se programa así. El razonamiento sobre arquitectura, performance y diseño de sistemas — eso sigue siendo humano.

La Paradoja de Jevons Aplicada a Programación

La Paradoja de Jevons dice que cuando la eficiencia de un recurso aumenta, el consumo total de ese recurso generalmente también aumenta, no disminuye.

Cuando los motores a vapor se hicieron más eficientes con el carbón, no consumimos menos carbón. Consumimos más, porque más cosas usaron motores.

Lo mismo va a pasar con el código. A medida que los agentes puedan construir software más rápido y barato, no vamos a necesitar menos software. Vamos a construir más. Más herramientas, más automatizaciones, más integraciones, más productos.

El mercado de software no se va a contraer. Se va a expandir. Lo que va a cambiar es quién puede participar en él.

Otro Ejemplo: Un Micro SaaS de SEO en un Día

Y LeanAutoLinks no fue el único proyecto de esta semana.

También construí una herramienta interna de keyword rank tracking y gap analysis usando el mismo enfoque de agentes. El problema era simple: necesitaba monitorear las posiciones de mis keywords en Google y detectar oportunidades de contenido automáticamente. Las herramientas existentes (Ahrefs, Semrush, Serpstat) cuestan $100-400/mes y la mayoría de sus features no las uso.

Así que construí un sistema que:

Sincroniza ranked keywords de mis dominios conectándose a APIs de datos SEO (~$0.01 por request vs $100+/mes de herramientas tradicionales)
Detecta content gaps automáticamente: queries donde tengo impresiones en Google pero no tengo contenido cubriendo ese tema
Crea entradas de glosario automáticamente cuando detecta términos que la gente busca y no tenemos cubiertos
Corre como cron — cada lunes analiza, detecta oportunidades, y genera los posts que faltan

El primer run detectó 742 queries con oportunidades, creó 4 entradas de glosario automáticamente, y identificó una guía de alto volumen (19,000+ impresiones) que no teníamos cubierta.

Cero interfaz gráfica. Cero dashboard bonito. Solo scripts que hacen el trabajo y un agente IA que los orquesta.

Este es el punto que Karpathy describe: la capacidad de un individuo para construir herramientas a medida se multiplicó exponencialmente. Antes necesitabas un equipo para construir un SaaS de SEO. Ahora puedes construir exactamente lo que necesitas en un día, con agentes que ejecutan mientras tú defines el problema.

La misma lógica de siempre: define el problema con métricas, diseña los agentes, deja que ejecuten.

Build in Public con IA como Estrategia de Contenido

Lo que estás leyendo ahora mismo es una consecuencia directa de eso.

Yo construí LeanAutoLinks con agentes IA. Documenté el proceso. Ese proceso se convierte en contenido que muestra cómo funciona el framework en la práctica. El contenido genera visibilidad. La visibilidad genera conversaciones y preguntas. Las preguntas generan más proyectos donde aplicar el framework.

Es un loop que se retroalimenta.

Si estás construyendo con IA, documenta. No el código — el proceso, las decisiones, los errores, los resultados. Eso tiene un valor que el código solo no tiene.

Conclusión

Karpathy dice que el cuello de botella ya no es escribir código. Es dirigir agentes.

Llevo una semana haciendo exactamente eso, y los resultados son reales: un plugin en producción, procesando 16,000 posts en 90 segundos, con cero tiempo en un equipo tradicional de desarrollo.

El framework que usé no es complicado:

Define el problema con métricas
Diseña roles, no tareas
Establece reglas de autonomía explícitas
Investiga antes de implementar
Incluye un Performance Agent con poder de veto
Respeta el orden de las fases

Lo que hace la diferencia no es la herramienta. Es el diseño del equipo y las constraints que le das.

Próximos Pasos

Si quieres profundizar en esto, tengo dos recursos:

El post completo sobre cómo construí LeanAutoLinks — con todos los detalles técnicos, el código del prompt de cada agente y cómo configuré Agent Teams desde cero: Construí un Plugin WordPress con un Equipo de Agentes IA

Mi comunidad en Skool — ahí estoy publicando en tiempo real los proyectos que construyo con agentes, el proceso, los errores y los resultados. Si quieres aprender a hacer esto mismo, es el lugar donde lo trabajamos juntos: Cágala, Aprende, Repite

El futuro del desarrollo de software no es escribir menos código. Es saber qué construir, para qué, con qué constraints — y dejar que los agentes lo ejecuten.

Eso siempre fue el trabajo del arquitecto. Ahora todos podemos serlo.

Publicado originalmente en cristiantala.com

Construí un Plugin de WordPress con un Equipo de 6 Agentes IA (y Procesa 16,000 Posts en 90 Segundos)

Cristian Tala S. — Tue, 24 Mar 2026 21:20:34 +0000

Tengo un problema que ningún plugin de WordPress resuelve bien.

ecosistemastartup.com publica ~100 posts por día. Tiene más de 16,000 artículos, 500+ términos de glosario, 500+ actores del ecosistema startup, y necesita insertar links internos automáticamente en todo ese contenido. Los plugins que probé — Link Whisper, Internal Link Juicer, Rank Math — degradan el performance cuando escalas a miles de reglas de linking.

Así que decidí construir uno. No solo. Con un equipo de 6 agentes IA usando Agent Teams de Claude Code.

El Dolor: Internal Linking a Escala No Funciona

Si tienes un blog con 50 posts, cualquier plugin de internal linking funciona. El problema aparece cuando escalas:

Internal Link Juicer procesaba links en cada page load. Con 500+ reglas, el TTFB se iba a las nubes.
Link Whisper necesita intervención manual para cada sugerencia. A 100 posts/día es inmanejable.
Rank Math tiene linking automático pero limitado: no tiene API, no soporta entidades custom, no puedes automatizar.

Lo que necesitaba era simple en concepto pero complejo en ejecución:

Cero impacto en el frontend — 0 queries adicionales cuando un usuario visita el sitio
Procesamiento async — los links se insertan en background, nunca bloqueando saves ni page loads
API-first — poder crear reglas, importar en bulk y monitorear todo programáticamente
Compliance automático — links de afiliados con rel="sponsored nofollow" sin pensar

La Decisión: Agent Teams de Claude Code

Podría haberlo programado línea por línea. Pero quería probar algo diferente: diseñar el plugin completo como un proyecto de Agent Teams, donde múltiples agentes IA trabajan en paralelo con roles especializados.

La clave no es «usa IA para programar». La clave es cómo diseñas los prompts para que el equipo sea autónomo.

Las Reglas de Autonomía (Esto Cambió Todo)

El error más común con agentes IA es dejarlos preguntar demasiado. Cada interrupción rompe el flujo. Así que definí reglas explícitas:

El agente principal NUNCA consulta al usuario para:
- Crear, editar o eliminar archivos
- Decisiones de estructura de carpetas
- Elección entre implementaciones técnicas equivalentes
- Redacción de READMEs, comentarios o documentación
- Escribir tests o casos de prueba

Solo interrumpir si:
- Una decisión cambia el scope del MVP
- Ambigüedad con impacto opuesto
- Se necesita credencial o acceso externo
- Bloqueo técnico sin salida

El resultado: el equipo trabajó durante horas sin interrumpirme una sola vez.

El Equipo: 6 Agentes, Cada Uno con su Rol

No es «un agente que hace todo». Cada uno tiene un rol específico y reglas claras:

1. 🧭 Estratega

El guardián del principio absoluto: nunca impactar el performance. Cada decisión técnica pasa por este filtro. Si algo hace el plugin más pesado sin beneficio de SEO demostrable, se rechaza.

2. 🔬 Research Agent

Antes de escribir una línea de código, este agente investigó todos los competidores:

Link Whisper, Yoast SEO, Rank Math, Internal Link Juicer, Internal Links Manager, SEOKEY
Documentó problemas de performance con evidencia de reseñas de wordpress.org
Entregó un reporte con tabla comparativa, antipatrones y recomendación técnica

Decisión clave del reporte: inserción on-save async con caché, no on-render. Esto es lo que mata el performance de otros plugins — procesan en cada page load.

3. 📊 SEO Engineer

Definió el algoritmo de matching: qué términos linkear, cuántos links por post, cómo tratar afiliados (rel="sponsored nofollow" siempre), qué elementos HTML nunca tocar (headings, code blocks, links existentes).

4. ⚡ Performance Agent

El rol más crítico. Definió métricas antes de que existiera código:

Métrica	Límite
TTFB con plugin activo vs inactivo	< 5ms diferencia
save_post overhead	< 50ms
Queries en frontend	0
Bulk 15,000 posts	< 4 horas
Engine con 1,000 reglas	< 500ms/post

Tiene poder de veto. Si alguna implementación degrada las métricas, se para todo.

5. 🏗️ Arquitecto / Dev

Implementa todo: schema de BD, API REST (17 endpoints), engine de matching, queue con Action Scheduler, admin UI, WP-CLI commands. Todo con PHP 8.1+, strict types, estándares de wordpress.org desde el día 1.

6. 🔍 QA

Checklists por endpoint (auth, capabilities, sanitización), tests del engine (no linkea dentro de headings/code/links), validación de performance con los benchmarks del Performance Agent.

El Proceso: De Investigación a Plugin en un Día

El flujo fue estricto y en orden:

Fase 0 — Investigación: Research Agent entrega reporte. Performance Agent define métricas. SEO Engineer define algoritmo. Estratega decide timing.

Fase 1 — Fundación: Schema de BD, openapi.yaml, Docker funcional.

Fase 2 — Engine Core: RuleMatcherEngine, ContentParser, LinkBuilder. El corazón del plugin.

Fase 3 — Queue y Processing: Action Scheduler con concurrencia de 3 jobs paralelos, lotes de 100 posts.

Fase 4 — API y Admin: 17 endpoints REST, admin UI con 5 tabs, import/export.

Fase 5 — Benchmarks y release.

Los Números Reales (En Producción Hoy)

LeanAutoLinks ya está corriendo en ecosistemastartup.com. Estos son los números reales de la migración:

Métrica	Resultado
Posts procesados	16,793
Tiempo de procesamiento	90.5 segundos
Throughput	668,009 posts/hora
Keywords activos	736
Queries en frontend	0
Reglas migradas de ILJ	492

Para contexto: Internal Link Juicer tomaba minutos en rebuilds parciales. LeanAutoLinks procesó TODO el sitio en 90 segundos.

Lecciones de Build in Public con Agent Teams

Lo que funcionó

Roles claros > agente genérico. El Performance Agent vetando al Arquitecto fue más valioso que un solo agente haciendo todo.
Investigación primero. Sin el reporte del Research Agent, habríamos repetido los mismos errores de los competidores.
Métricas antes que código. Definir los benchmarks antes de implementar obliga a diseñar para performance.
Reglas de autonomía explícitas. El equipo no me interrumpió una sola vez. Eso es productividad real.

Lo que aprendí

Los Agent Teams no reemplazan al founder que sabe lo que quiere. El prompt inicial de 3,000 palabras fue la inversión más importante del proyecto.
El prompt ES el producto. Si tu prompt es vago, tu software es vago.
Build in public con IA es más potente que build in public solo — puedes mostrar el proceso Y el framework para que otros lo repliquen.

El Plugin Es Open Source

LeanAutoLinks está en GitHub: github.com/ctala/Wordpress-Lean-Auto-Links

17 endpoints REST con OpenAPI spec
Background processing con Action Scheduler
3 capas de caché (object cache, transients particionados, content cache)
Unicode-aware (español, portugués, diacríticos)
WP-CLI para operaciones bulk
Documentación para agentes IA (AGENTS.md)

Si tienes un sitio con miles de posts y los plugins de internal linking te están matando el performance, pruébalo.

¿Quieres Ver Más Procesos Así?

Estoy documentando todo lo que construyo con IA en mi comunidad. Desde plugins hasta automatizaciones con n8n, workflows de contenido, y estrategias de monetización.

Únete a Cágala, Aprende, Repite — ahí compartimos builds reales, no teoría.

¿Construyes con Agent Teams o agentes IA? Cuéntame tu experiencia — me interesa saber qué frameworks están usando otros builders.

Publicado originalmente en cristiantala.com