DEV Community

Cristian Tala
Cristian Tala

Posted on

How to Use Claude Code with ANY LLM Provider (2026 Guide)

I'm Cristian Tala. I founded and sold a fintech (Pago Fácil) for $23M, and now I invest in startups and build with AI. When my $200/month Anthropic Max subscription stopped being enough, I found a better way.

Recently me encontré con un problema que drove me crazy. I've been using Claude Code, pero it was never enough. I started with la subscription Max de $100 al mes, then upgraded to la de $200 — la más cara que existe — y and still. O se me acaba la cuota a mitad de mes, o los servidores de Anthropic están caídos, o noto que las respuestas cada vez son más genéricas. Como si al saturarse la plataforma, el modelo se estuviera volviendo más tonto.

That's when I realized something: estoy pagando $200 al mes (la subscription más cara que existe) por un servicio que me falla más de lo que funciona.

So I started looking for alternatives. Y what I found changed how en que trabajo con IA.

Pero acá viene the part almost nobody knows: Claude Code isn't a model. It's an interface. Y esa interfaz se puede conectar a casi cualquier provider de LLM que exista.

I'm not talking about hacking ni de hacer algo ilegal. Te estoy hablando de una funcionalidad que el propio Claude Code soporta: cambiar el ANTHROPIC_BASE_URL para apuntar a otro provider con endpoint compatible. Y cuando hice eso, descubrí algo que blew my mind.

What nobody tells you sobre Claude Code

Claude Code es una CLI (command-line interface). Envía requests a una API que sigue el formato de Anthropic. Pero ese formato no es exclusivo de Anthropic.

Proveedores como Z.ai (GLM), Xiaomi (MiMo), Moonshot (Kimi), DeepSeek, y muchos otros exponen endpoints que son Anthropic-compatibles. Claude Code envía un request, el provider responde, y todo funciona como si nada hubiera cambiado.

En la práctica: clonas una carpeta de configuración, pegas tu API key, y claude arranca usando un modelo que cuesta $6/mes en vez de $200.

Too good to be true? Yo también lo pensé. Por eso hice dos cosas:

Los resultados me sorprendieron. Y creo que a ti también te van a sorprender.


El dato que incomoda: los modelos más caros son los peores

Antes de pasar a la configuración, you need to see something. Porque sino you'll think I'm selling you snake oil.

Corrí 68 modelos a través de 91 tests cada uno — razonamiento, coding, generación de contenido, tool calling, agentes, traducción, y más. El juez fue Phi-4 de Microsoft corriendo local en Ollama. Cero sesgo comercial.

La correlación entre precio y calidad fue ρ = −0.460 (p = 0.001). Negativa. O sea: los modelos más caros tienden a rendir peor en tests single-turn.

Y en contenido, la correlación es ρ = −0.603 (p < 0.001). Fuerte. El modelo más caro del benchmark, GPT-5.5 a $46.50/1k calls, sacó un score de 6.44. Mientras tanto, Llama 3.1 8B en Groq a $0.14/1k calls sacó 7.66.

55× más barato, 19% mejor.

This isn't opinion. Es la data que cualquiera puede replicar si clona el benchmark.

¿Por qué pasa esto?

Porque los modelos premium suelen ser «thinking models» — consumen tokens de razonamiento interno antes de responder. En un test single-turn corto, ese razonamiento extra no mejora el resultado pero sí dispara el costo. Kimi K2.6 facturaba ~3,500 tokens de output cuando el texto visible era solo ~700. Un multiplicador de 5× en costo por la misma respuesta.

Además, los modelos económicos modernos (Llama, GPT-OSS, Gemma 4) están tan bien afinados que para la inmensa mayoría de tareas de coding y contenido, la diferencia con los premium es imperceptible en la práctica.


The Top 10 Nobody Expected

Esto es lo que salió del benchmark v2.4 (29 de abril 2026):

Modelo
Score
$/1k calls
tok/s
Provider

1
Llama 4 Scout 17B
7.67
$0.54
244
Groq

2
Llama 3.1 8B Instant
7.66
$0.14
368
Groq

3
Llama 3.3 70B
7.64
$1.36
238
Groq

4
Mistral Small 4
7.54
$0.94
110
OpenRouter

5
GPT-OSS 20B
7.53
$0.47
633
Groq

6
Gemini 3.1 Flash Lite
7.50
$2.33
148
Google

7
Grok 4.1 Fast
7.50
$0.81
116
xAI

8
GPT-OSS 120B
7.41
$0.00
75
Ollama Cloud

9
Devstral Small
7.35
$0.48
147
OpenRouter

10
MiMo V2.5 (Xiaomi)
7.32
$0.13
79
Xiaomi

8 of 10 are open-source. Los 4 modelos en Groq directo tienen más de 200 tokens/segundo, score arriba de 7.5 y cuestan menos de $1.50 por 1k llamadas. Esa combinación no existe en provideres cerrados.

Y for those wondering: sí, Claude Opus 4.7 quedó fuera del top 10. Saca 7.16 y cuesta $117 por 1k calls. 20× más caro que DeepSeek V4 Flash, que via NIM gratis saca 7.07.

The hard question: ¿pagarías 20× más para ganar 8% de score?


El mismo modelo, distinto provider: matters more than you think

Otro hallazgo que me hizo repensar todo: el provider importa tanto como el modelo.

Gemma 4 31B corrió en tres provideres distintos:

Provider
Score
Costo
tok/s

NVIDIA NIM
7.20
$0.00
22.8

OpenRouter
7.20
$0.99
22.8

DGX Spark local (Q4)
6.84
$0.00
9.3

NIM gratis da exactamente el mismo resultado que OpenRouter pagado. Y Kimi K2.5 en NIM gratis empata al 100% con OpenRouter a $1.26/1k calls. Pagar por ese modelo cuando NIM lo da gratis es, literalmente, literally burning money.

La regla es simple: si Groq tiene el modelo, usa Groq. Su LPU entrega 5-10× más velocidad a precio competitivo. Si quieres costo cero con calidad FP16, usa NIM (con límite de 40 RPM, pero gratis).


Cómo configurar Claude Code con cualquier provider — paso a paso

Here comes the practical part. Todo lo que describo está documentado con archivos de configuración listos en github.com/ctala/claude-code-providers.

Preparación: limpia tu entorno

Antes de cualquier cosa, verifica que no tengas variables del shell sobrescribiendo la configuración:

env | grep ANTHROPIC

Enter fullscreen mode Exit fullscreen mode

Si ves ANTHROPIC_AUTH_TOKEN, ANTHROPIC_BASE_URL o ANTHROPIC_API_KEY en tu ~/.zshrc o ~/.bashrc, las variables del shell tienen prioridad sobre los settings por carpeta. Desactívalas antes de probar:

unset ANTHROPIC_AUTH_TOKEN ANTHROPIC_BASE_URL ANTHROPIC_API_KEY

Enter fullscreen mode Exit fullscreen mode

La estructura: cada provider es una carpeta independiente

El repositorio funciona así: cada subcarpeta es un workspace Claude Code completo con su configuración aislada:

provider/
├── .claude/
│   ├── settings.json              # Config compartible (BASE_URL, modelos)
│   ├── settings.local.json.example # Plantilla con placeholder para tu key
│   └── settings.local.json        # Tu API key real (gitignored)
├── .gitignore                     # Incluye settings.local.json
└── README.md                      # Instrucciones específicas

Enter fullscreen mode Exit fullscreen mode

Setup genérico (3 pasos)

## 1. Entra a la carpeta del provider
cd /

## 2. Copia la plantilla y pega tu API key
cp .claude/settings.local.json.example .claude/settings.local.json
$EDITOR .claude/settings.local.json

## 3. Lanza Claude Code
claude

## Dentro de Claude, verifica:
/status    # Confirma BASE_URL + modelo activo
/model     # Cambiar modelo si el provider tiene varios

Enter fullscreen mode Exit fullscreen mode

Tienes 20+ provideres configurados así. Cambias de uno a otro con un cd. No hay conflicto porque cada settings.local.json vive en su propia carpeta.


Proveedores por category — cuál elegir según tu situación

Plan mensual: alternativas fijas a Anthropic Max

Carpeta
Proveedor
Modelos
USD/mes

xiaomi/
Xiaomi MiMo Token Plan
MiMo V2.5, V2.5-Pro, V2-Omni
$6-$88

zai-coding/
Z.ai GLM Coding Plan
GLM-4.7, GLM-5.1, GLM-4.5-Air
~$10-$80

minimax/
MiniMax Coding Plan
M2.7, M2.7-highspeed
$19-$50

qwen-coding/
Alibaba Qwen Coding Plan
Qwen3-Coder-Plus, Qwen3-Max
Variable

Mi recomendación personal: Xiaomi MiMo a $14/mes (plan Standard). MiMo V2.5 salió #10 global en el benchmark con score 7.32 — por encima de Claude Opus 4.7 en 3 de 4 pilares. A 42× menos del costo.

Pay-as-you-go: para cuando no quieres subscription

Carpeta
Proveedor
Modelos
Notas

deepseek/
DeepSeek
DeepSeek-V3, Coder
De los más baratos del mercado

openrouter/
OpenRouter
300+ modelos
Una key para todo, fallback automático

moonshot/
Moonshot Kimi
Kimi K2 Turbo
Endpoint Anthropic-compat oficial

zai-api/
Z.ai BigModel API
GLM-4.7, GLM-5.1
Pay-per-token

OpenRouter es el comodín: una sola API key te da acceso a Anthropic, xAI, Google, Meta, Qwen, DeepSeek — 300+ modelos. Si quieres flexibilidad sin compromisos, es la opción.

Cloud enterprise: AWS, GCP, Azure

Carpeta
Plataforma
Variables

aws-bedrock/
AWS
CLAUDE_CODE_USE_BEDROCK=1

google-vertex/
GCP
CLAUDE_CODE_USE_VERTEX=1

azure-foundry/
Azure
Endpoint Anthropic-compat

Si tu empresa ya tiene cuentas en AWS/GCP/Azure, esto te permite consumir Claude (Bedrock, Vertex) o modelos third-party (Foundry) bajo tu IAM y facturación corporativa. Sin APIs sueltas, sin credenciales fuera del ecosistema.

Local: si tienes el hardware, la privacidad no tiene precio

Carpeta
Stack
Modelos típicos

ollama-local/
Ollama 0.11+ (Anthropic-compat nativo)
Qwen3-Coder, Llama 3.3, DeepSeek-V3

lmstudio-local/
LM Studio + LiteLLM proxy
Cualquier GGUF

nvidia-nim/
Docker NIM container
NIMs publicados por NVIDIA

Ollama 0.11+ expone el endpoint Anthropic-compat de forma nativa en :11434. Sin proxy, sin traductor. Es tan simple como correr el container y apuntar ANTHROPIC_BASE_URL=http://localhost:11434.

Si tienes un DGX Spark (o cualquier GPU potente con 24GB+), puedes correr Qwen3-Coder:480B, Llama 3.3:70b, o DeepSeek-Coder-V2 localmente. Costo: $0 (más electricidad). Privacidad: total.


La trampa de ANTHROPIC_AUTH_TOKEN vs ANTHROPIC_API_KEY

Un error que me quitó 2 horas la primera vez — y por eso lo puse en el docs/troubleshooting.md del repo:

  • ANTHROPIC_AUTH_TOKEN — Para provideres third-party con endpoint Anthropic-compat (Z.ai, Xiaomi, Moonshot, DeepSeek).
  • ANTHROPIC_API_KEY — Solo para Anthropic directo (pay-as-you-go en api.anthropic.com).

Confundirlas = error 401 inmediato. Y no es obvio hasta que lees la documentación del provider.


¿Pero funcionan de verdad estos modelos para coding?

The million-dollar question. Si vas a usar Claude Code, es para programar. Probé 23 suites distintas, incluyendo code_generation, tool_calling, y structured_output.

Los resultados por suite:

Suite
Mejor modelo
Score

Code generation
Llama 4 Scout 17B
8.04

Tool calling
Llama 3.1 8B Instant
8.45

Structured output
Llama 3.1 8B Instant
8.00

String precision
Devstral Small
8.12

Razonamiento
GPT-OSS 20B
7.97

Deep reasoning
Llama 4 Scout 17B
7.68

Devstral Small (Mistral, Apache 2.0, $0.10/$0.30 per M tokens) es la sorpresa del benchmark — open-source, barato, y domina coding con un tool calling excelente.

Ahora, an honest warning: el benchmark mide modelos solos, single-turn, sin herramientas. En producción real, un workflow N8N con herramientas (búsqueda web, RAG, API calls) puede invertir el ranking. Qwen 3.5 397B, por ejemplo, parece «regular» en el benchmark (score global 6.72) pero en producción genera artículos excelentes para ecosistemastartup.com porque se integra perfecto con tools de búsqueda.

El benchmark te da la línea base. Tu workflow real te da el resultado.


Setups recomendados por presupuesto

$0/mes — Solo local

Si tienes el hardware (DGX Spark, GPU 24GB+, Apple Silicon):

Modelos:

- Gemma 4 31B → tareas rápidas

- Qwen 3.5 72B → coding y razonamiento de calidad

- Phi-4 14B → juez local

Setup: ollama-local/ carpeta

Enter fullscreen mode Exit fullscreen mode

$14-20/mes — Una subscription fija

Opción
Qué obtienes
Mejor para

Xiaomi MiMo ($14)
MiMo V2.5 (score 7.32)
Content + coding económico

GLM Coding ($10)
GLM-5.1, GLM-4.7
Coding con costo fijo

OpenRouter pay-as-you-go
300+ modelos, ~$20 crédito
Flexibilidad máxima

Mi recomendación: OpenRouter. Una API key para todo. Si un modelo falla o se deprecata, cambias sin reconfigurar nada.

$50/mes — Combo óptimo

OpenRouter pay-as-you-go: ~$15-20 (DeepSeek + Gemini Flash + Devstral)
MiniMax Agent Pro: $19 (M2.7 para agentes, costo fijo)
Gemini CLI: $0 (prototipos rápidos)
Total: ~$35-40

Esto reemplaza a la subscription Max de $200 de Anthropic — y no dependes de su disponibilidad.

Enter fullscreen mode Exit fullscreen mode

$100+/mes — Setup completo

OpenRouter: ~$20 (DeepSeek + Devstral para volumen)
MiniMax Agent: $19 (M2.7 para agentes 24/7)
NIM local: $0 (modelos open-source para privacidad)
Anthropic Max (opcional): $200 (Opus 4.7 solo para tareas críticas)

Nota: Anthropic Max lo uso solo para tareas críticas donde necesito Opus 4.7. Para todo lo demás, los modelos alternativos rinden igual o mejor por fracción del costo.

Enter fullscreen mode Exit fullscreen mode

To put it in perspective: yo pago $200 al mes por Anthropic Max (la subscription más cara que existe) y me alcanza la mitad del tiempo. Cuando los servidores de Claude se saturan, las respuestas se vuelven más genéricas — lo notas. Con el setup que describo ($35-40) trabajo sin límites, con fallback automático y sin depender de una sola empresa. This isn't theory — es lo que uso todos los días.

El combo de abajo es como tener 300 modelos a tu disposición con una sola API key (OpenRouter). Si uno falla, usas otro. Si Anthropic se cae, rotas a Groq. Si DeepSeek está lento, usas MiMo. Tienes poder de negociación.


Lo que aprendí haciendo esto

Running 7,725 benchmarks con 68 modelos isn't free. Invertí:

  • ~$350-400 USD en APIs (OpenAI, OpenRouter, MiniMax, Anthropic, Xiaomi)
  • ~$45/mes en suscripciones activas
  • ~190h de cómputo cloud
  • ~50h de cómputo local (GPU en Mac M-series + DGX Spark)
  • ~80-100h de trabajo humano (diseño de tests, debugging, análisis, documentación)

Todo eso está disponible gratis bajo MIT license en los dos repositorios. If this saves you an afternoon de debugging de Anthropic Base URL, give it a star — ayuda a que otros devs lo encuentren.


The uncomfortable truth

No existe el «mejor modelo». Y quien te diga que sí, probablemente te está vendiendo uno.

Lo que existe es el mejor modelo para lo que necesitas, con el presupuesto que tienes, en el contexto que trabajas.

  • ¿Coding rápido y barato? Devstral Small o DeepSeek V3.
  • ¿Agentes 24/7 con costo predecible? MiniMax M2.7 a $19/mes fijo.
  • ¿Contenido SEO en español? DeepSeek V3.2 es #1 en news_seo_writing.
  • ¿Soporte al cliente donde la honestidad importa? Claude Sonnet — no inventa respuestas.
  • ¿Privacidad total? Ollama local con los modelos que ya corren en tu hardware.
  • ¿Flexibilidad absoluta? OpenRouter con una key para 300+ modelos.

The 2026 LLM ecosystem is a feast — y la mayoría sigue comiendo en el mismo restaurante caro. Hay alternativas mejores, más baratas, y en muchos casos, abiertas.

La pregunta no es «cuál es el mejor modelo». La pregunta es: ¿qué quieres construir hoy, y cuánto quieres pagar por las herramientas?


¿Tienes dudas sobre qué modelo usar para tu caso específico? Únete a mi comunidad de emprendedores en Cágala, Aprende, Repite — ahí podemos ayudarte entre todos. Y si quieres ver cómo armo los benchmarks con N8N y OpenClaw en la práctica, el workflow está documentado en el repo.


Publicado originalmente en cristiantala.com

Top comments (0)