Roobia

Posted on Jun 4 • Originally published at apidog.com

¿Qué es Gemma 4 12B?

Google lanzó Gemma 4 12B el 3 de junio de 2026. Es un modelo abierto de 11.95 mil millones de parámetros que acepta texto, imágenes, audio y video como entrada, devuelve texto y puede ejecutarse en una laptop con 16 GB de memoria. Lo importante para desarrolladores: es un modelo multimodal mediano con entrada de audio nativa y sin codificadores separados de visión o audio.

Prueba Apidog hoy

A diferencia de muchos modelos multimodales, Gemma 4 12B no “atornilla” un codificador de visión ni uno de audio a un LLM. Proyecta parches de imagen y formas de onda de audio directamente al espacio del modelo. El resultado es un único modelo de 12B que maneja cuatro tipos de entrada, funciona offline y se distribuye bajo Apache 2.0 para uso comercial.

En esta guía verás qué es Gemma 4 12B, cómo encaja en la familia Gemma 4, qué hardware necesitas y cómo empezar a integrarlo en flujos locales. Si quieres ejecutarlo directamente, consulta la guía complementaria sobre cómo usar Gemma 4 12B gratis.

Gemma 4 12B de un vistazo

Especificación	Valor
Lanzamiento	3 de junio de 2026
Parámetros	11.95B, modelo denso
Entradas	Texto, imagen, audio, video
Salida	Texto
Ventana de contexto	256K tokens
Arquitectura	Multimodal unificada sin codificador
Licencia	Apache 2.0
Hardware objetivo	16 GB de VRAM o memoria unificada; aprox. 8 GB a 4 bits
Variantes	`google/gemma-4-12B` base, `google/gemma-4-12B-it` ajustado para instrucciones

Qué es Gemma 4 12B

Gemma 4 12B es un modelo abierto denso de Google DeepMind. Puede recibir texto, imágenes, audio y video, y responder en texto. Está pensado para ejecución local en hardware de consumo, con contexto largo de 256K tokens, llamada de herramientas nativa y un modo opcional de razonamiento paso a paso.

Dentro de la línea Gemma 4, Google lo posiciona como el punto medio entre el modelo E4B, más orientado a dispositivos de borde, y el modelo 26B Mixture-of-Experts. La propuesta práctica es clara: obtener buena parte de la calidad del modelo más grande con mucha menos memoria.

Dónde encaja en la familia Gemma 4

Gemma 4 no llegó como un único lanzamiento. Los modelos E2B, E4B, 26B y 31B se anunciaron el 31 de marzo de 2026. El 12B se agregó el 3 de junio.

Modelo	Tamaño	Contexto	Notas
Gemma 4 E2B	2.3B efectivos, 5.1B brutos	128K	En dispositivo, entrada de audio
Gemma 4 E4B	4.5B efectivos, 8B brutos	128K	Compacto, entrada de audio
Gemma 4 12B	11.95B denso	256K	Sin codificador, entrada de audio
Gemma 4 26B A4B	4B activo, 26B total	256K	Mixture-of-Experts
Gemma 4 31B	31B denso	256K	Mayor rendimiento

El 12B es el único de la familia construido con el diseño sin codificador. Los demás mantienen un codificador de visión tradicional, y los dos más pequeños también usan un codificador de audio conformer.

Si estás comparando modelos abiertos para producción, también puedes revisar la comparación de MiniMax M3, DeepSeek V4 y Qwen 3.7 y el análisis sobre la guerra de precios de código abierto.

Qué significa “sin codificador”

En una arquitectura multimodal típica:

Un codificador de visión convierte imágenes en embeddings.
Un codificador de audio convierte sonido en embeddings.
Un proyector adapta esos embeddings al espacio del modelo de lenguaje.
El LLM procesa todo como tokens internos.

Gemma 4 12B simplifica ese flujo:

Visión: usa un módulo de incrustación ligero para proyectar parches de imagen crudos al espacio de embeddings del modelo.
Audio: elimina el codificador de audio separado y proyecta el audio crudo al mismo espacio dimensional que los tokens de texto.

En la práctica, todas las modalidades fluyen hacia el mismo modelo de lenguaje.

Texto ───────┐
Imagen ──────┼──> Gemma 4 12B ───> Texto
Audio ───────┤
Video ───────┘

Dos decisiones ayudan a mantenerlo eficiente:

Incrustaciones por capa, PLE: cada capa del decodificador recibe una incrustación pequeña y dedicada que combina identidad de token con proyección contextual.
Caché KV compartida: algunas capas reutilizan tensores clave-valor de capas anteriores para reducir memoria en contextos largos.

Google también incluye un borrador de Predicción Multi-Token, MTP, para decodificación especulativa. Según la descripción publicada, puede acelerar la inferencia de extremo a extremo hasta aproximadamente 3 veces sin cambiar la calidad de salida.

Capacidades multimodales útiles para implementar

Gemma 4 12B puede servir como base para flujos locales donde antes necesitabas varios modelos separados:

ASR y transcripción: convertir voz a texto.
Diarización: identificar quién habló y cuándo.
Preguntas sobre audio: responder sobre sonidos, no solo voz.
Comprensión de video: combinar fotogramas y audio.
Análisis de imágenes: subtitulado, detección de UI, razonamiento visual.
Chat con herramientas: conectar funciones externas a un runner local.

Cuando mezcles modalidades, el orden importa. La plantilla de chat espera la imagen antes del prompt de texto y el audio después. La salida sigue siendo texto.

Ejemplo conceptual de entrada multimodal:

[imagen: captura_de_pantalla.png]

Usuario:
Describe el error que aparece en esta interfaz y sugiere el siguiente paso.

[audio: explicacion_del_usuario.wav]

Cómo probarlo en un flujo local

La forma concreta depende del runner que uses, por ejemplo Ollama, llama.cpp u otro servidor local compatible. El patrón de integración suele ser el mismo:

Descarga o carga la variante gemma-4-12B-it.
Expón el modelo mediante un endpoint local.
Envía prompts de texto o multimodales.
Valida el formato de respuesta.
Conecta el endpoint a tu aplicación.

Si tu runner expone una API HTTP local, puedes probar la integración con un request similar:

curl http://localhost:11434/api/chat \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma-4-12b-it",
    "messages": [
      {
        "role": "user",
        "content": "Resume este error y propone una solución reproducible para un desarrollador."
      }
    ]
  }'

Para una aplicación real, conviene validar desde el inicio:

estructura del request;
campos obligatorios;
formato de respuesta;
errores del runner local;
latencia con contexto largo;
tamaño máximo de archivos de entrada;
salida JSON si necesitas datos estructurados.

Ejemplo de prompt para salida estructurada:

Analiza la transcripción de la reunión y responde solo con JSON válido.

Formato:
{
  "resumen": "string",
  "decisiones": ["string"],
  "acciones": [
    {
      "responsable": "string",
      "tarea": "string",
      "fecha_limite": "string | null"
    }
  ]
}

Benchmarks publicados

Estas son puntuaciones publicadas para gemma-4-12B-it, según la tarjeta del modelo en Hugging Face.

Benchmark	Gemma 4 12B-it
MMLU Pro, razonamiento	77.2%
AIME 2026, matemáticas sin herramientas	77.5%
GPQA Diamond, ciencia	78.8%
LiveCodeBench v6, codificación	72.0%
Codeforces, ELO	1659
MMMU Pro, visión	69.1%
MATH-Visión	79.7%
MRCR v2, 128K, 8-aguja, contexto largo	43.4%

Comparado con otros modelos de la familia:

Benchmark	E4B	12B	26B A4B	31B
MMLU Pro	69.4%	77.2%	82.6%	85.2%
AIME 2026	42.5%	77.5%	88.3%	89.2%
GPQA Diamond	58.6%	78.8%	82.3%	84.3%
LiveCodeBench v6	52.0%	72.0%	77.1%	80.0%

El patrón es útil para elegir modelo: Gemma 4 12B queda muy por encima del E4B y se acerca al 26B en varias pruebas, pero con menor demanda de memoria.

Qué cambia frente a Gemma 3

Si ya usaste Gemma 3, los cambios más importantes son:

Audio nativo: Gemma 3 trabajaba con texto y visión; Gemma 4 12B añade audio y video con audio.
Diseño sin codificador: no necesitas cargar codificadores separados de visión o audio.
Contexto de 256K: más espacio para documentos largos, transcripciones y código de varios archivos.
Apache 2.0: Gemma 4 usa una licencia permisiva estándar, más sencilla para uso comercial y redistribución.

Casos de uso prácticos

Gemma 4 12B está pensado para tareas locales, especialmente cuando la privacidad o el coste por token importan.

1. Asistente offline con pantalla y micrófono

Puedes usarlo para construir un asistente que analice:

capturas de pantalla;
comandos del usuario por voz;
logs o trazas;
documentos locales.

Flujo:

Captura de pantalla + audio del usuario + logs
        ↓
Gemma 4 12B local
        ↓
Respuesta en texto con diagnóstico y siguiente acción

2. Resúmenes de reuniones locales

Entrada:

audio de la llamada;
transcripción parcial;
lista de participantes;
notas previas.

Salida esperada:

{
  "resumen": "Se revisó el estado del despliegue y se acordó priorizar la corrección del bug de autenticación.",
  "decisiones": [
    "Bloquear el release hasta validar autenticación",
    "Asignar pruebas adicionales al equipo de backend"
  ],
  "acciones": [
    {
      "responsable": "Backend",
      "tarea": "Revisar tokens expirados en el flujo de login",
      "fecha_limite": null
    }
  ]
}

3. Análisis de documentos y medios

Puedes combinar:

PDFs;
capturas;
imágenes de interfaces;
audios;
prompts de texto.

Esto es útil para pipelines internos de soporte, QA, documentación o revisión de producto.

4. Ayuda local para codificación

Con 72.0% en LiveCodeBench v6, puede servir para:

explicar errores;
sugerir refactors;
generar pruebas;
revisar snippets;
crear documentación técnica.

Ejemplo de prompt:

Actúa como revisor de código. Analiza este fragmento y devuelve:

1. Riesgos de bugs.
2. Mejoras de legibilidad.
3. Posibles problemas de rendimiento.
4. Una versión refactorizada si aplica.

Código:

js
// pega aquí el código

plaintext

Cómo validar una API local con Apidog

Si expones Gemma 4 12B mediante un endpoint local, no basta con que el modelo responda. También necesitas probar la interfaz que consumirá tu aplicación.

Una herramienta como Apidog te permite guardar el endpoint local, enviar prompts de prueba y verificar el JSON de respuesta antes de integrarlo en producción. Puedes descargar Apidog gratis y apuntarlo al servidor local en pocos pasos.

Checklist mínimo:

Crear una colección para el runner local.
Definir el endpoint de chat o generación.
Guardar ejemplos de prompts.
Probar respuestas en texto plano y JSON.
Documentar el contrato de entrada y salida.
Reutilizar la colección en tu aplicación o equipo.

Más detalles prácticos están en la guía sobre cómo usar Gemma 4 12B gratis.

Licencia Apache 2.0

Gemma 4 12B se publica bajo Apache 2.0. En términos prácticos:

puedes usarlo comercialmente;
puedes modificarlo;
puedes ajustarlo;
puedes redistribuirlo;
puedes integrarlo en productos de código cerrado;
conservas tus resultados.

Esto simplifica la revisión legal frente a licencias personalizadas, especialmente si quieres usar el modelo dentro de una aplicación comercial o un flujo interno de empresa.

Hardware necesario

Google apunta a máquinas con 16 GB de VRAM o memoria unificada, como equipos con GPU de consumo o MacBooks con memoria unificada.

Estimaciones de memoria:

Configuración	Memoria aproximada
Calidad completa	~16 GB
8 bits	~14 GB
4 bits, Q4_K_M	~8 GB

Esto lo hace viable en:

una GPU gaming convencional;
un MacBook de 16 GB;
una estación de trabajo de gama media;
entornos locales donde no quieres enviar datos a la nube.

Si tu hardware es más limitado, los modelos E2B y E4B pueden ser opciones más ligeras.

Limitaciones a considerar

Como cualquier modelo abierto de este tamaño, Gemma 4 12B tiene límites:

puede producir información incorrecta o desactualizada;
puede reflejar sesgos de sus datos de entrenamiento;
puede fallar con sarcasmo, matices o lenguaje figurado;
el razonamiento de sentido común no es perfecto;
la calidad depende mucho del prompt y del contexto;
no sustituye a un modelo cloud de frontera para razonamiento complejo.

Para producción, aplica validaciones:

Modelo local
   ↓
Validación de formato
   ↓
Reglas de negocio
   ↓
Revisión humana si el riesgo es alto
   ↓
Acción o respuesta final

Preguntas frecuentes

¿Gemma 4 12B es gratis?

Sí. Los pesos son de código abierto bajo Apache 2.0 y se pueden descargar gratis desde Hugging Face y Kaggle. Solo pagas por el hardware o la nube donde lo ejecutes. Consulta cómo usar Gemma 4 12B gratis.

¿Puede entender audio de verdad?

Sí. Toma audio crudo como entrada y puede transcribir voz, identificar oradores y responder preguntas sobre sonido. La diferencia clave es que lo hace de forma nativa, sin depender de un modelo de voz separado.

¿Cuál es la diferencia entre `gemma-4-12B` y `gemma-4-12B-it`?

gemma-4-12B es el modelo base preentrenado. gemma-4-12B-it está ajustado para instrucciones, chat, uso de herramientas y seguimiento de prompts. Para la mayoría de aplicaciones conversacionales, empieza con gemma-4-12B-it.

¿En qué se diferencia de los modelos 26B y 31B?

Gemma 4 12B es denso, sin codificador y está ajustado para máquinas de 16 GB. El 26B es un modelo Mixture-of-Experts con 4B activos y 26B totales. El 31B es un modelo denso más grande para mayor calidad. Los modelos grandes puntúan más alto, pero requieren más memoria.

¿Soporta llamada a herramientas?

Sí. Admite llamadas a funciones de texto y multimodales, además de un modo opcional de pensamiento para razonamiento paso a paso. Esto lo hace útil para flujos agentivos donde el modelo debe planificar y ejecutar acciones mediante herramientas externas.

¿Cómo se compara con Gemini 3.5?

Son modelos para objetivos distintos. Gemini 3.5 es un modelo alojado de frontera de Google; puedes leer más en qué es Gemini 3.5. Gemma 4 12B es un modelo abierto que ejecutas tú mismo. Cambias parte de la calidad máxima por privacidad, uso offline y coste cero por token.

DEV Community

¿Qué es Gemma 4 12B?

Gemma 4 12B de un vistazo

Qué es Gemma 4 12B

Dónde encaja en la familia Gemma 4

Qué significa “sin codificador”

Capacidades multimodales útiles para implementar

Cómo probarlo en un flujo local

Benchmarks publicados

Qué cambia frente a Gemma 3

Casos de uso prácticos

1. Asistente offline con pantalla y micrófono

2. Resúmenes de reuniones locales

3. Análisis de documentos y medios

4. Ayuda local para codificación

Cómo validar una API local con Apidog

Licencia Apache 2.0

Hardware necesario

Limitaciones a considerar

Preguntas frecuentes

¿Gemma 4 12B es gratis?

¿Puede entender audio de verdad?

¿Cuál es la diferencia entre `gemma-4-12B` y `gemma-4-12B-it`?

¿En qué se diferencia de los modelos 26B y 31B?

¿Soporta llamada a herramientas?

¿Cómo se compara con Gemini 3.5?

Top comments (0)

Gemma 4 12B de un vistazo

Qué es Gemma 4 12B

Dónde encaja en la familia Gemma 4

Qué significa “sin codificador”

Capacidades multimodales útiles para implementar

Cómo probarlo en un flujo local

Benchmarks publicados

Qué cambia frente a Gemma 3

Casos de uso prácticos

1. Asistente offline con pantalla y micrófono

2. Resúmenes de reuniones locales

3. Análisis de documentos y medios

4. Ayuda local para codificación

Cómo validar una API local con Apidog

Licencia Apache 2.0

Hardware necesario

Limitaciones a considerar

Preguntas frecuentes

¿Gemma 4 12B es gratis?

¿Puede entender audio de verdad?

¿Cuál es la diferencia entre gemma-4-12B y gemma-4-12B-it?

¿En qué se diferencia de los modelos 26B y 31B?

¿Soporta llamada a herramientas?

¿Cómo se compara con Gemini 3.5?

¿Cuál es la diferencia entre `gemma-4-12B` y `gemma-4-12B-it`?