Google lanzó Gemma 4 12B el 3 de junio de 2026. Es un modelo abierto de 11.95 mil millones de parámetros que acepta texto, imágenes, audio y video como entrada, devuelve texto y puede ejecutarse en una laptop con 16 GB de memoria. Lo importante para desarrolladores: es un modelo multimodal mediano con entrada de audio nativa y sin codificadores separados de visión o audio.
A diferencia de muchos modelos multimodales, Gemma 4 12B no “atornilla” un codificador de visión ni uno de audio a un LLM. Proyecta parches de imagen y formas de onda de audio directamente al espacio del modelo. El resultado es un único modelo de 12B que maneja cuatro tipos de entrada, funciona offline y se distribuye bajo Apache 2.0 para uso comercial.
En esta guía verás qué es Gemma 4 12B, cómo encaja en la familia Gemma 4, qué hardware necesitas y cómo empezar a integrarlo en flujos locales. Si quieres ejecutarlo directamente, consulta la guía complementaria sobre cómo usar Gemma 4 12B gratis.
Gemma 4 12B de un vistazo
| Especificación | Valor |
|---|---|
| Lanzamiento | 3 de junio de 2026 |
| Parámetros | 11.95B, modelo denso |
| Entradas | Texto, imagen, audio, video |
| Salida | Texto |
| Ventana de contexto | 256K tokens |
| Arquitectura | Multimodal unificada sin codificador |
| Licencia | Apache 2.0 |
| Hardware objetivo | 16 GB de VRAM o memoria unificada; aprox. 8 GB a 4 bits |
| Variantes |
google/gemma-4-12B base, google/gemma-4-12B-it ajustado para instrucciones |
Qué es Gemma 4 12B
Gemma 4 12B es un modelo abierto denso de Google DeepMind. Puede recibir texto, imágenes, audio y video, y responder en texto. Está pensado para ejecución local en hardware de consumo, con contexto largo de 256K tokens, llamada de herramientas nativa y un modo opcional de razonamiento paso a paso.
Dentro de la línea Gemma 4, Google lo posiciona como el punto medio entre el modelo E4B, más orientado a dispositivos de borde, y el modelo 26B Mixture-of-Experts. La propuesta práctica es clara: obtener buena parte de la calidad del modelo más grande con mucha menos memoria.
Dónde encaja en la familia Gemma 4
Gemma 4 no llegó como un único lanzamiento. Los modelos E2B, E4B, 26B y 31B se anunciaron el 31 de marzo de 2026. El 12B se agregó el 3 de junio.
| Modelo | Tamaño | Contexto | Notas |
|---|---|---|---|
| Gemma 4 E2B | 2.3B efectivos, 5.1B brutos | 128K | En dispositivo, entrada de audio |
| Gemma 4 E4B | 4.5B efectivos, 8B brutos | 128K | Compacto, entrada de audio |
| Gemma 4 12B | 11.95B denso | 256K | Sin codificador, entrada de audio |
| Gemma 4 26B A4B | 4B activo, 26B total | 256K | Mixture-of-Experts |
| Gemma 4 31B | 31B denso | 256K | Mayor rendimiento |
El 12B es el único de la familia construido con el diseño sin codificador. Los demás mantienen un codificador de visión tradicional, y los dos más pequeños también usan un codificador de audio conformer.
Si estás comparando modelos abiertos para producción, también puedes revisar la comparación de MiniMax M3, DeepSeek V4 y Qwen 3.7 y el análisis sobre la guerra de precios de código abierto.
Qué significa “sin codificador”
En una arquitectura multimodal típica:
- Un codificador de visión convierte imágenes en embeddings.
- Un codificador de audio convierte sonido en embeddings.
- Un proyector adapta esos embeddings al espacio del modelo de lenguaje.
- El LLM procesa todo como tokens internos.
Gemma 4 12B simplifica ese flujo:
- Visión: usa un módulo de incrustación ligero para proyectar parches de imagen crudos al espacio de embeddings del modelo.
- Audio: elimina el codificador de audio separado y proyecta el audio crudo al mismo espacio dimensional que los tokens de texto.
En la práctica, todas las modalidades fluyen hacia el mismo modelo de lenguaje.
Texto ───────┐
Imagen ──────┼──> Gemma 4 12B ───> Texto
Audio ───────┤
Video ───────┘
Dos decisiones ayudan a mantenerlo eficiente:
- Incrustaciones por capa, PLE: cada capa del decodificador recibe una incrustación pequeña y dedicada que combina identidad de token con proyección contextual.
- Caché KV compartida: algunas capas reutilizan tensores clave-valor de capas anteriores para reducir memoria en contextos largos.
Google también incluye un borrador de Predicción Multi-Token, MTP, para decodificación especulativa. Según la descripción publicada, puede acelerar la inferencia de extremo a extremo hasta aproximadamente 3 veces sin cambiar la calidad de salida.
Capacidades multimodales útiles para implementar
Gemma 4 12B puede servir como base para flujos locales donde antes necesitabas varios modelos separados:
- ASR y transcripción: convertir voz a texto.
- Diarización: identificar quién habló y cuándo.
- Preguntas sobre audio: responder sobre sonidos, no solo voz.
- Comprensión de video: combinar fotogramas y audio.
- Análisis de imágenes: subtitulado, detección de UI, razonamiento visual.
- Chat con herramientas: conectar funciones externas a un runner local.
Cuando mezcles modalidades, el orden importa. La plantilla de chat espera la imagen antes del prompt de texto y el audio después. La salida sigue siendo texto.
Ejemplo conceptual de entrada multimodal:
[imagen: captura_de_pantalla.png]
Usuario:
Describe el error que aparece en esta interfaz y sugiere el siguiente paso.
[audio: explicacion_del_usuario.wav]
Cómo probarlo en un flujo local
La forma concreta depende del runner que uses, por ejemplo Ollama, llama.cpp u otro servidor local compatible. El patrón de integración suele ser el mismo:
- Descarga o carga la variante
gemma-4-12B-it. - Expón el modelo mediante un endpoint local.
- Envía prompts de texto o multimodales.
- Valida el formato de respuesta.
- Conecta el endpoint a tu aplicación.
Si tu runner expone una API HTTP local, puedes probar la integración con un request similar:
curl http://localhost:11434/api/chat \
-H "Content-Type: application/json" \
-d '{
"model": "gemma-4-12b-it",
"messages": [
{
"role": "user",
"content": "Resume este error y propone una solución reproducible para un desarrollador."
}
]
}'
Para una aplicación real, conviene validar desde el inicio:
- estructura del request;
- campos obligatorios;
- formato de respuesta;
- errores del runner local;
- latencia con contexto largo;
- tamaño máximo de archivos de entrada;
- salida JSON si necesitas datos estructurados.
Ejemplo de prompt para salida estructurada:
Analiza la transcripción de la reunión y responde solo con JSON válido.
Formato:
{
"resumen": "string",
"decisiones": ["string"],
"acciones": [
{
"responsable": "string",
"tarea": "string",
"fecha_limite": "string | null"
}
]
}
Benchmarks publicados
Estas son puntuaciones publicadas para gemma-4-12B-it, según la tarjeta del modelo en Hugging Face.
| Benchmark | Gemma 4 12B-it |
|---|---|
| MMLU Pro, razonamiento | 77.2% |
| AIME 2026, matemáticas sin herramientas | 77.5% |
| GPQA Diamond, ciencia | 78.8% |
| LiveCodeBench v6, codificación | 72.0% |
| Codeforces, ELO | 1659 |
| MMMU Pro, visión | 69.1% |
| MATH-Visión | 79.7% |
| MRCR v2, 128K, 8-aguja, contexto largo | 43.4% |
Comparado con otros modelos de la familia:
| Benchmark | E4B | 12B | 26B A4B | 31B |
|---|---|---|---|---|
| MMLU Pro | 69.4% | 77.2% | 82.6% | 85.2% |
| AIME 2026 | 42.5% | 77.5% | 88.3% | 89.2% |
| GPQA Diamond | 58.6% | 78.8% | 82.3% | 84.3% |
| LiveCodeBench v6 | 52.0% | 72.0% | 77.1% | 80.0% |
El patrón es útil para elegir modelo: Gemma 4 12B queda muy por encima del E4B y se acerca al 26B en varias pruebas, pero con menor demanda de memoria.
Qué cambia frente a Gemma 3
Si ya usaste Gemma 3, los cambios más importantes son:
- Audio nativo: Gemma 3 trabajaba con texto y visión; Gemma 4 12B añade audio y video con audio.
- Diseño sin codificador: no necesitas cargar codificadores separados de visión o audio.
- Contexto de 256K: más espacio para documentos largos, transcripciones y código de varios archivos.
- Apache 2.0: Gemma 4 usa una licencia permisiva estándar, más sencilla para uso comercial y redistribución.
Casos de uso prácticos
Gemma 4 12B está pensado para tareas locales, especialmente cuando la privacidad o el coste por token importan.
1. Asistente offline con pantalla y micrófono
Puedes usarlo para construir un asistente que analice:
- capturas de pantalla;
- comandos del usuario por voz;
- logs o trazas;
- documentos locales.
Flujo:
Captura de pantalla + audio del usuario + logs
↓
Gemma 4 12B local
↓
Respuesta en texto con diagnóstico y siguiente acción
2. Resúmenes de reuniones locales
Entrada:
- audio de la llamada;
- transcripción parcial;
- lista de participantes;
- notas previas.
Salida esperada:
{
"resumen": "Se revisó el estado del despliegue y se acordó priorizar la corrección del bug de autenticación.",
"decisiones": [
"Bloquear el release hasta validar autenticación",
"Asignar pruebas adicionales al equipo de backend"
],
"acciones": [
{
"responsable": "Backend",
"tarea": "Revisar tokens expirados en el flujo de login",
"fecha_limite": null
}
]
}
3. Análisis de documentos y medios
Puedes combinar:
- PDFs;
- capturas;
- imágenes de interfaces;
- audios;
- prompts de texto.
Esto es útil para pipelines internos de soporte, QA, documentación o revisión de producto.
4. Ayuda local para codificación
Con 72.0% en LiveCodeBench v6, puede servir para:
- explicar errores;
- sugerir refactors;
- generar pruebas;
- revisar snippets;
- crear documentación técnica.
Ejemplo de prompt:
Actúa como revisor de código. Analiza este fragmento y devuelve:
1. Riesgos de bugs.
2. Mejoras de legibilidad.
3. Posibles problemas de rendimiento.
4. Una versión refactorizada si aplica.
Código:
js
// pega aquí el código
plaintext
Cómo validar una API local con Apidog
Si expones Gemma 4 12B mediante un endpoint local, no basta con que el modelo responda. También necesitas probar la interfaz que consumirá tu aplicación.
Una herramienta como Apidog te permite guardar el endpoint local, enviar prompts de prueba y verificar el JSON de respuesta antes de integrarlo en producción. Puedes descargar Apidog gratis y apuntarlo al servidor local en pocos pasos.
Checklist mínimo:
- Crear una colección para el runner local.
- Definir el endpoint de chat o generación.
- Guardar ejemplos de prompts.
- Probar respuestas en texto plano y JSON.
- Documentar el contrato de entrada y salida.
- Reutilizar la colección en tu aplicación o equipo.
Más detalles prácticos están en la guía sobre cómo usar Gemma 4 12B gratis.
Licencia Apache 2.0
Gemma 4 12B se publica bajo Apache 2.0. En términos prácticos:
- puedes usarlo comercialmente;
- puedes modificarlo;
- puedes ajustarlo;
- puedes redistribuirlo;
- puedes integrarlo en productos de código cerrado;
- conservas tus resultados.
Esto simplifica la revisión legal frente a licencias personalizadas, especialmente si quieres usar el modelo dentro de una aplicación comercial o un flujo interno de empresa.
Hardware necesario
Google apunta a máquinas con 16 GB de VRAM o memoria unificada, como equipos con GPU de consumo o MacBooks con memoria unificada.
Estimaciones de memoria:
| Configuración | Memoria aproximada |
|---|---|
| Calidad completa | ~16 GB |
| 8 bits | ~14 GB |
| 4 bits, Q4_K_M | ~8 GB |
Esto lo hace viable en:
- una GPU gaming convencional;
- un MacBook de 16 GB;
- una estación de trabajo de gama media;
- entornos locales donde no quieres enviar datos a la nube.
Si tu hardware es más limitado, los modelos E2B y E4B pueden ser opciones más ligeras.
Limitaciones a considerar
Como cualquier modelo abierto de este tamaño, Gemma 4 12B tiene límites:
- puede producir información incorrecta o desactualizada;
- puede reflejar sesgos de sus datos de entrenamiento;
- puede fallar con sarcasmo, matices o lenguaje figurado;
- el razonamiento de sentido común no es perfecto;
- la calidad depende mucho del prompt y del contexto;
- no sustituye a un modelo cloud de frontera para razonamiento complejo.
Para producción, aplica validaciones:
Modelo local
↓
Validación de formato
↓
Reglas de negocio
↓
Revisión humana si el riesgo es alto
↓
Acción o respuesta final
Preguntas frecuentes
¿Gemma 4 12B es gratis?
Sí. Los pesos son de código abierto bajo Apache 2.0 y se pueden descargar gratis desde Hugging Face y Kaggle. Solo pagas por el hardware o la nube donde lo ejecutes. Consulta cómo usar Gemma 4 12B gratis.
¿Puede entender audio de verdad?
Sí. Toma audio crudo como entrada y puede transcribir voz, identificar oradores y responder preguntas sobre sonido. La diferencia clave es que lo hace de forma nativa, sin depender de un modelo de voz separado.
¿Cuál es la diferencia entre gemma-4-12B y gemma-4-12B-it?
gemma-4-12B es el modelo base preentrenado. gemma-4-12B-it está ajustado para instrucciones, chat, uso de herramientas y seguimiento de prompts. Para la mayoría de aplicaciones conversacionales, empieza con gemma-4-12B-it.
¿En qué se diferencia de los modelos 26B y 31B?
Gemma 4 12B es denso, sin codificador y está ajustado para máquinas de 16 GB. El 26B es un modelo Mixture-of-Experts con 4B activos y 26B totales. El 31B es un modelo denso más grande para mayor calidad. Los modelos grandes puntúan más alto, pero requieren más memoria.
¿Soporta llamada a herramientas?
Sí. Admite llamadas a funciones de texto y multimodales, además de un modo opcional de pensamiento para razonamiento paso a paso. Esto lo hace útil para flujos agentivos donde el modelo debe planificar y ejecutar acciones mediante herramientas externas.
¿Cómo se compara con Gemini 3.5?
Son modelos para objetivos distintos. Gemini 3.5 es un modelo alojado de frontera de Google; puedes leer más en qué es Gemini 3.5. Gemma 4 12B es un modelo abierto que ejecutas tú mismo. Cambias parte de la calidad máxima por privacidad, uso offline y coste cero por token.

Top comments (0)