Gemma 4 12B es de pesos abiertos y tiene licencia Apache 2.0. En la práctica, “gratis” significa que no pagas API ni suscripción: descargas el modelo y lo ejecutas en tu propia máquina, o lo pruebas desde el navegador. El coste real es el hardware donde lo ejecutes.
Antes de empezar, ten en cuenta esto: Gemma 4 12B está pensado para uso local y en dispositivo. Los modelos mayores, 31B y 26B, son los que Google aloja para chat gratuito en AI Studio. El valor del 12B es que puede ejecutarse en un portátil con 16 GB de memoria. Si necesitas contexto técnico del modelo, empieza por qué es Gemma 4 12B.
A continuación tienes seis formas prácticas de usarlo gratis: desde una demo en navegador hasta una API local compatible con OpenAI.
Resumen rápido
| Método | Qué obtienes | Mejor para |
|---|---|---|
| Hugging Face Space | Chat en navegador, cero instalación | Probarlo en un minuto |
| Ollama | Modelo local + API compatible con OpenAI | Desarrolladores, un comando |
| LM Studio | Aplicación de escritorio local con GUI | Usarlo sin terminal |
| llama.cpp | Servidor API local ligero | Configuraciones avanzadas y baja sobrecarga |
| HF Transformers | Python, control total, GPU Colab gratuita | Notebooks y ajuste fino |
| Google AI Edge | Ejecución en dispositivo | Teléfonos y hardware perimetral |
Método 1: probarlo en el navegador sin instalar nada
La forma más rápida de validar Gemma 4 12B es usar el Space oficial de Hugging Face. No necesitas descargar pesos, crear una cuenta ni tener GPU local.
Pasos:
- Abre el Space de demostración de Gemma 4 12B.
- Escribe un prompt.
- Opcionalmente, sube una imagen o un clip de audio.
- Revisa la respuesta generada.
Usa este método para una prueba rápida o para validar las capacidades multimodales. Si quieres integrarlo en una app o llamarlo desde código, pasa a un método local.
Método 2: Ollama para una API local rápida
Ollama es la opción más directa para desarrolladores: instala el runtime, descarga el modelo y expone una API local compatible con OpenAI.
1. Instala Ollama
En macOS o Linux:
curl -fsSL https://ollama.com/install.sh | sh
En Windows, descarga el instalador desde ollama.com y ejecútalo.
2. Descarga y ejecuta Gemma 4 12B
ollama pull gemma4:12b
ollama run gemma4:12b
El primer comando descarga el modelo. Por defecto, Ollama usa una compilación cuantificada de 4 bits Q4_K_M, de alrededor de 8 GB. El segundo comando abre un chat interactivo.
Para salir:
/bye
3. Llama al modelo desde una API local
Ollama expone un endpoint compatible con OpenAI en:
http://localhost:11434/v1
Ejemplo con curl:
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gemma4:12b",
"messages": [
{
"role": "user",
"content": "Explain how transformers work in two sentences."
}
]
}'
Como el formato coincide con OpenAI, puedes reutilizar SDKs, clientes HTTP, editores, frameworks de agentes o herramientas internas cambiando solo la URL base a:
http://localhost:11434/v1
Si trabajas con Cursor u otro IDE, el patrón es similar al de esta guía de DeepSeek V4 en Cursor: cambia el modelo por gemma4:12b.
Comandos útiles:
ollama list
ollama ps
ollama show gemma4:12b
-
ollama list: muestra modelos descargados. -
ollama ps: muestra modelos en ejecución. -
ollama show gemma4:12b: imprime detalles del modelo.
Método 3: LM Studio si no quieres usar terminal
LM Studio es una aplicación de escritorio para Windows, macOS y Linux. Es útil si quieres ejecutar modelos locales desde una interfaz gráfica.
Pasos:
- Descarga e instala LM Studio.
- Busca Gemma 4 12B en el catálogo de modelos.
- Elige una cuantificación que encaje con tu RAM.
- Descarga el modelo.
- Abre la pestaña de chat y empieza a probar prompts.
LM Studio también puede levantar un servidor local con endpoint compatible con OpenAI, normalmente en:
http://localhost:1234/v1
Esto te permite probar el modelo desde una GUI y, después, llamarlo desde código sin cambiar demasiado tu flujo de trabajo.
Método 4: llama.cpp para una configuración ligera
llama.cpp ejecuta modelos GGUF con poca sobrecarga y ofrece su propio servidor compatible con OpenAI.
Instalación:
# macOS
brew install llama.cpp
# Windows
winget install llama.cpp
Después, inicia un servidor apuntando a la compilación GGUF oficial. Busca la colección ggml-org/gemma-4 en Hugging Face para confirmar el repositorio exacto del modelo 12B y pásalo a llama-server:
llama-server -hf ggml-org/gemma-4-12B-it-GGUF
El servidor expone una API compatible con OpenAI en:
http://localhost:8080/v1
Usa esta ruta si quieres:
- Menos dependencias.
- Más control sobre flags de ejecución.
- Mejor ajuste para hardware modesto.
- Un runtime local reutilizable en otras herramientas.
Método 5: Hugging Face Transformers para control total en Python
Si quieres notebooks, scripts, experimentos o ajuste fino, usa Transformers. Si no tienes GPU local, puedes ejecutar el flujo en un notebook gratuito de Google Colab.
Instala dependencias:
pip install transformers torch accelerate torchvision
# Para entrada de audio y vídeo
pip install librosa
Ejemplo básico de generación:
from transformers import AutoProcessor, AutoModelForMultimodalLM
MODEL_ID = "google/gemma-4-12B-it"
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForMultimodalLM.from_pretrained(
MODEL_ID,
dtype="auto",
device_map="auto",
)
messages = [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Write a short joke about saving RAM."},
]
inputs = processor.apply_chat_template(
messages,
tokenize=True,
return_dict=True,
return_tensors="pt",
add_generation_prompt=True,
enable_thinking=False,
).to(model.device)
input_len = inputs["input_ids"].shape[-1]
outputs = model.generate(
**inputs,
max_new_tokens=1024
)
response = processor.decode(
outputs[0][input_len:],
skip_special_tokens=False
)
print(processor.parse_response(response))
Para activar razonamiento paso a paso:
enable_thinking=True
Para entrada multimodal, añade contenido estructurado:
- Imagen antes del texto:
{"type": "image", ...} - Audio después del texto:
{"type": "audio", ...}
Los pesos también están disponibles en Kaggle si prefieres esa fuente. Para patrones completos de código, revisa la guía del desarrollador.
Método 6: Google AI Edge para móviles y dispositivos perimetrales
Para ejecutar Gemma 4 12B en teléfonos o hardware perimetral, Google distribuye la pila AI Edge. Tanto Google AI Edge Gallery como la CLI LiteRT-LM permiten ejecutar el 12B en el dispositivo.
Ejemplo con LiteRT-LM:
litert-lm import \
--from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm \
gemma-4-12B-it.litertlm gemma4-12b
litert-lm serve
Este método encaja mejor cuando necesitas:
- Asistentes móviles sin conexión.
- Aplicaciones embebidas.
- Procesamiento local de datos.
- Evitar que los datos salgan del dispositivo.
Prueba tu API local de Gemma 4 12B con Apidog
Cuando Gemma 4 12B funciona con Ollama o llama.cpp, ya tienes una API HTTP local. Antes de conectarla a una app, conviene validar el contrato de solicitud y respuesta con un cliente API. Apidog sirve para probar, documentar y depurar ese endpoint.
Configuración recomendada:
- Descarga Apidog y crea un proyecto HTTP.
- Añade una solicitud
POST. - Usa la URL de Ollama:
http://localhost:11434/v1/chat/completions
O la de llama.cpp:
http://localhost:8080/v1/chat/completions
- Configura el cuerpo como JSON.
- Pega esta carga útil:
{
"model": "gemma4:12b",
"messages": [
{
"role": "user",
"content": "Return a JSON object with two fields: city and country."
}
],
"stream": false
}
- Guarda la URL base como variable de entorno para alternar entre Ollama y llama.cpp.
- Añade una aserción para comprobar que el campo
contentcontiene JSON válido. - Cambia
streamatruepara validar streaming antes de construir una interfaz de usuario.
Ejemplo de variable de entorno:
BASE_URL=http://localhost:11434/v1
Después usa:
{{BASE_URL}}/chat/completions
La ventaja es simple: detectas prompts malformados, campos incorrectos o errores de streaming en Apidog antes de depurarlos dentro de tu aplicación.
Si estás comparando herramientas, revisa estas recopilaciones de herramientas gratuitas de prueba de API en línea y alternativas a Postman. El mismo flujo funciona con cualquier endpoint compatible con OpenAI, igual que en una configuración de pruebas de APIs con Postman.
¿Qué cuantificación deberías elegir?
Gemma 4 12B se adapta a distintas máquinas según el nivel de compresión.
| Compilación | Memoria necesaria | Compensación |
|---|---|---|
| Precisión completa | ~16 GB | Mejor calidad |
| 8 bits | ~14 GB | Calidad casi completa |
4 bits Q4_K_M
|
~8 GB | Ligera caída de calidad, mayor compatibilidad |
Ollama usa por defecto la versión de 4 bits. Por eso puede funcionar en una GPU de 8 GB o en un MacBook con 16 GB de memoria unificada. Si tienes margen de memoria, prueba la compilación de 8 bits para mejorar calidad.
¿Qué método gratuito deberías usar?
Usa esta regla rápida:
- Solo quieres probar el modelo: Hugging Face Space.
- Estás desarrollando software: Ollama.
- No quieres usar terminal: LM Studio.
- Quieres baja sobrecarga: llama.cpp.
- Trabajas en notebooks o fine-tuning: Hugging Face Transformers.
- Necesitas ejecución en móvil o edge: Google AI Edge.
Para la mayoría de desarrolladores, Ollama es la mejor opción diaria. Transformers queda para experimentos más controlados o trabajos pesados.
Consejos para ejecutar Gemma 4 12B localmente
- Ajusta la cuantificación a tu RAM. Si el sistema empieza a intercambiar memoria a disco, la generación será lenta. La versión de 4 bits es la opción segura.
-
Activa
enable_thinking=Truesolo cuando haga falta. Úsalo para matemáticas o razonamiento de varios pasos. Déjalo desactivado para respuestas rápidas. - Controla el tamaño del contexto. La ventana de 256K es grande, pero transcripciones largas y bases de código pueden llenarla.
- Valida primero la API en Apidog. Confirma estructura JSON, streaming y nombres de campos antes de integrarlo en tu app.
- Reutiliza el mismo patrón con otros modelos locales. Puedes aplicar un flujo similar a Qwen 3.7, MiniMax M3 y Claude Opus 4.8.
Preguntas frecuentes
¿Gemma 4 12B es realmente gratis?
Sí. Es de pesos abiertos y tiene licencia Apache 2.0. Puedes descargarlo y ejecutarlo gratis, incluso para uso comercial. Solo pagas el hardware o la nube donde lo ejecutes.
¿Necesito una GPU?
No, pero ayuda. La versión de 4 bits puede ejecutarse en una GPU de 8 GB o en un Mac con 16 GB de memoria unificada. En CPU también puede funcionar, pero será más lento.
¿Puedo usar Gemma 4 12B en Google AI Studio?
Actualmente no. AI Studio aloja los modelos 31B y 26B para chat gratuito en navegador. Gemma 4 12B está diseñado para ejecución local y en dispositivo.
¿La API local necesita clave API?
No. Ollama y llama.cpp sirven el modelo en localhost sin clave. Si una herramienta exige un campo de API key, puedes usar una cadena de marcador de posición; el servidor local la ignorará.
¿Puedo llamarlo desde mi código existente de OpenAI?
Sí. Ollama y llama.cpp exponen endpoints compatibles con OpenAI.
Usa estas URLs base:
# Ollama
http://localhost:11434/v1
# llama.cpp
http://localhost:8080/v1
Después conserva la estructura habitual de chat/completions.
¿Cómo uso imagen y audio?
Usa Transformers, LM Studio o las aplicaciones de AI Edge, que admiten entrada multimodal. Añade contenido de imagen antes del prompt de texto y contenido de audio después.
¿Qué es más rápido: Ollama o llama.cpp?
Ambos usan el mismo motor subyacente. llama.cpp ofrece menos sobrecarga y más flags de ajuste. Ollama es más fácil de instalar y operar. Para la mayoría de usuarios, la diferencia práctica es pequeña.




Top comments (0)