DEV Community

Cover image for ¿Qué es Gemma 4 12B?
Roobia
Roobia

Posted on • Originally published at apidog.com

¿Qué es Gemma 4 12B?

Google lanzó Gemma 4 12B el 3 de junio de 2026. Es un modelo abierto de 11.95 mil millones de parámetros que acepta texto, imágenes, audio y video como entrada, devuelve texto y puede ejecutarse en una laptop con 16 GB de memoria. Lo importante para desarrolladores: es un modelo multimodal mediano con entrada de audio nativa y sin codificadores separados de visión o audio.

Prueba Apidog hoy

A diferencia de muchos modelos multimodales, Gemma 4 12B no “atornilla” un codificador de visión ni uno de audio a un LLM. Proyecta parches de imagen y formas de onda de audio directamente al espacio del modelo. El resultado es un único modelo de 12B que maneja cuatro tipos de entrada, funciona offline y se distribuye bajo Apache 2.0 para uso comercial.

En esta guía verás qué es Gemma 4 12B, cómo encaja en la familia Gemma 4, qué hardware necesitas y cómo empezar a integrarlo en flujos locales. Si quieres ejecutarlo directamente, consulta la guía complementaria sobre cómo usar Gemma 4 12B gratis.

Gemma 4 12B de un vistazo

Especificación Valor
Lanzamiento 3 de junio de 2026
Parámetros 11.95B, modelo denso
Entradas Texto, imagen, audio, video
Salida Texto
Ventana de contexto 256K tokens
Arquitectura Multimodal unificada sin codificador
Licencia Apache 2.0
Hardware objetivo 16 GB de VRAM o memoria unificada; aprox. 8 GB a 4 bits
Variantes google/gemma-4-12B base, google/gemma-4-12B-it ajustado para instrucciones

Qué es Gemma 4 12B

Gemma 4 12B es un modelo abierto denso de Google DeepMind. Puede recibir texto, imágenes, audio y video, y responder en texto. Está pensado para ejecución local en hardware de consumo, con contexto largo de 256K tokens, llamada de herramientas nativa y un modo opcional de razonamiento paso a paso.

Gemma 4 12B

Dentro de la línea Gemma 4, Google lo posiciona como el punto medio entre el modelo E4B, más orientado a dispositivos de borde, y el modelo 26B Mixture-of-Experts. La propuesta práctica es clara: obtener buena parte de la calidad del modelo más grande con mucha menos memoria.

Dónde encaja en la familia Gemma 4

Gemma 4 no llegó como un único lanzamiento. Los modelos E2B, E4B, 26B y 31B se anunciaron el 31 de marzo de 2026. El 12B se agregó el 3 de junio.

Modelo Tamaño Contexto Notas
Gemma 4 E2B 2.3B efectivos, 5.1B brutos 128K En dispositivo, entrada de audio
Gemma 4 E4B 4.5B efectivos, 8B brutos 128K Compacto, entrada de audio
Gemma 4 12B 11.95B denso 256K Sin codificador, entrada de audio
Gemma 4 26B A4B 4B activo, 26B total 256K Mixture-of-Experts
Gemma 4 31B 31B denso 256K Mayor rendimiento

El 12B es el único de la familia construido con el diseño sin codificador. Los demás mantienen un codificador de visión tradicional, y los dos más pequeños también usan un codificador de audio conformer.

Si estás comparando modelos abiertos para producción, también puedes revisar la comparación de MiniMax M3, DeepSeek V4 y Qwen 3.7 y el análisis sobre la guerra de precios de código abierto.

Qué significa “sin codificador”

En una arquitectura multimodal típica:

  1. Un codificador de visión convierte imágenes en embeddings.
  2. Un codificador de audio convierte sonido en embeddings.
  3. Un proyector adapta esos embeddings al espacio del modelo de lenguaje.
  4. El LLM procesa todo como tokens internos.

Gemma 4 12B simplifica ese flujo:

  • Visión: usa un módulo de incrustación ligero para proyectar parches de imagen crudos al espacio de embeddings del modelo.
  • Audio: elimina el codificador de audio separado y proyecta el audio crudo al mismo espacio dimensional que los tokens de texto.

En la práctica, todas las modalidades fluyen hacia el mismo modelo de lenguaje.

Texto ───────┐
Imagen ──────┼──> Gemma 4 12B ───> Texto
Audio ───────┤
Video ───────┘
Enter fullscreen mode Exit fullscreen mode

Dos decisiones ayudan a mantenerlo eficiente:

  • Incrustaciones por capa, PLE: cada capa del decodificador recibe una incrustación pequeña y dedicada que combina identidad de token con proyección contextual.
  • Caché KV compartida: algunas capas reutilizan tensores clave-valor de capas anteriores para reducir memoria en contextos largos.

Google también incluye un borrador de Predicción Multi-Token, MTP, para decodificación especulativa. Según la descripción publicada, puede acelerar la inferencia de extremo a extremo hasta aproximadamente 3 veces sin cambiar la calidad de salida.

Capacidades multimodales útiles para implementar

Gemma 4 12B puede servir como base para flujos locales donde antes necesitabas varios modelos separados:

  • ASR y transcripción: convertir voz a texto.
  • Diarización: identificar quién habló y cuándo.
  • Preguntas sobre audio: responder sobre sonidos, no solo voz.
  • Comprensión de video: combinar fotogramas y audio.
  • Análisis de imágenes: subtitulado, detección de UI, razonamiento visual.
  • Chat con herramientas: conectar funciones externas a un runner local.

Cuando mezcles modalidades, el orden importa. La plantilla de chat espera la imagen antes del prompt de texto y el audio después. La salida sigue siendo texto.

Ejemplo conceptual de entrada multimodal:

[imagen: captura_de_pantalla.png]

Usuario:
Describe el error que aparece en esta interfaz y sugiere el siguiente paso.

[audio: explicacion_del_usuario.wav]
Enter fullscreen mode Exit fullscreen mode

Cómo probarlo en un flujo local

La forma concreta depende del runner que uses, por ejemplo Ollama, llama.cpp u otro servidor local compatible. El patrón de integración suele ser el mismo:

  1. Descarga o carga la variante gemma-4-12B-it.
  2. Expón el modelo mediante un endpoint local.
  3. Envía prompts de texto o multimodales.
  4. Valida el formato de respuesta.
  5. Conecta el endpoint a tu aplicación.

Si tu runner expone una API HTTP local, puedes probar la integración con un request similar:

curl http://localhost:11434/api/chat \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma-4-12b-it",
    "messages": [
      {
        "role": "user",
        "content": "Resume este error y propone una solución reproducible para un desarrollador."
      }
    ]
  }'
Enter fullscreen mode Exit fullscreen mode

Para una aplicación real, conviene validar desde el inicio:

  • estructura del request;
  • campos obligatorios;
  • formato de respuesta;
  • errores del runner local;
  • latencia con contexto largo;
  • tamaño máximo de archivos de entrada;
  • salida JSON si necesitas datos estructurados.

Ejemplo de prompt para salida estructurada:

Analiza la transcripción de la reunión y responde solo con JSON válido.

Formato:
{
  "resumen": "string",
  "decisiones": ["string"],
  "acciones": [
    {
      "responsable": "string",
      "tarea": "string",
      "fecha_limite": "string | null"
    }
  ]
}
Enter fullscreen mode Exit fullscreen mode

Benchmarks publicados

Estas son puntuaciones publicadas para gemma-4-12B-it, según la tarjeta del modelo en Hugging Face.

Benchmark Gemma 4 12B-it
MMLU Pro, razonamiento 77.2%
AIME 2026, matemáticas sin herramientas 77.5%
GPQA Diamond, ciencia 78.8%
LiveCodeBench v6, codificación 72.0%
Codeforces, ELO 1659
MMMU Pro, visión 69.1%
MATH-Visión 79.7%
MRCR v2, 128K, 8-aguja, contexto largo 43.4%

Comparado con otros modelos de la familia:

Benchmark E4B 12B 26B A4B 31B
MMLU Pro 69.4% 77.2% 82.6% 85.2%
AIME 2026 42.5% 77.5% 88.3% 89.2%
GPQA Diamond 58.6% 78.8% 82.3% 84.3%
LiveCodeBench v6 52.0% 72.0% 77.1% 80.0%

El patrón es útil para elegir modelo: Gemma 4 12B queda muy por encima del E4B y se acerca al 26B en varias pruebas, pero con menor demanda de memoria.

Qué cambia frente a Gemma 3

Si ya usaste Gemma 3, los cambios más importantes son:

  1. Audio nativo: Gemma 3 trabajaba con texto y visión; Gemma 4 12B añade audio y video con audio.
  2. Diseño sin codificador: no necesitas cargar codificadores separados de visión o audio.
  3. Contexto de 256K: más espacio para documentos largos, transcripciones y código de varios archivos.
  4. Apache 2.0: Gemma 4 usa una licencia permisiva estándar, más sencilla para uso comercial y redistribución.

Casos de uso prácticos

Gemma 4 12B está pensado para tareas locales, especialmente cuando la privacidad o el coste por token importan.

1. Asistente offline con pantalla y micrófono

Puedes usarlo para construir un asistente que analice:

  • capturas de pantalla;
  • comandos del usuario por voz;
  • logs o trazas;
  • documentos locales.

Flujo:

Captura de pantalla + audio del usuario + logs
        ↓
Gemma 4 12B local
        ↓
Respuesta en texto con diagnóstico y siguiente acción
Enter fullscreen mode Exit fullscreen mode

2. Resúmenes de reuniones locales

Entrada:

  • audio de la llamada;
  • transcripción parcial;
  • lista de participantes;
  • notas previas.

Salida esperada:

{
  "resumen": "Se revisó el estado del despliegue y se acordó priorizar la corrección del bug de autenticación.",
  "decisiones": [
    "Bloquear el release hasta validar autenticación",
    "Asignar pruebas adicionales al equipo de backend"
  ],
  "acciones": [
    {
      "responsable": "Backend",
      "tarea": "Revisar tokens expirados en el flujo de login",
      "fecha_limite": null
    }
  ]
}
Enter fullscreen mode Exit fullscreen mode

3. Análisis de documentos y medios

Puedes combinar:

  • PDFs;
  • capturas;
  • imágenes de interfaces;
  • audios;
  • prompts de texto.

Esto es útil para pipelines internos de soporte, QA, documentación o revisión de producto.

4. Ayuda local para codificación

Con 72.0% en LiveCodeBench v6, puede servir para:

  • explicar errores;
  • sugerir refactors;
  • generar pruebas;
  • revisar snippets;
  • crear documentación técnica.

Ejemplo de prompt:

Actúa como revisor de código. Analiza este fragmento y devuelve:

1. Riesgos de bugs.
2. Mejoras de legibilidad.
3. Posibles problemas de rendimiento.
4. Una versión refactorizada si aplica.

Código:
Enter fullscreen mode Exit fullscreen mode


js
// pega aquí el código

Enter fullscreen mode Exit fullscreen mode


plaintext

Cómo validar una API local con Apidog

Si expones Gemma 4 12B mediante un endpoint local, no basta con que el modelo responda. También necesitas probar la interfaz que consumirá tu aplicación.

Una herramienta como Apidog te permite guardar el endpoint local, enviar prompts de prueba y verificar el JSON de respuesta antes de integrarlo en producción. Puedes descargar Apidog gratis y apuntarlo al servidor local en pocos pasos.

Checklist mínimo:

  • Crear una colección para el runner local.
  • Definir el endpoint de chat o generación.
  • Guardar ejemplos de prompts.
  • Probar respuestas en texto plano y JSON.
  • Documentar el contrato de entrada y salida.
  • Reutilizar la colección en tu aplicación o equipo.

Más detalles prácticos están en la guía sobre cómo usar Gemma 4 12B gratis.

Licencia Apache 2.0

Gemma 4 12B se publica bajo Apache 2.0. En términos prácticos:

  • puedes usarlo comercialmente;
  • puedes modificarlo;
  • puedes ajustarlo;
  • puedes redistribuirlo;
  • puedes integrarlo en productos de código cerrado;
  • conservas tus resultados.

Esto simplifica la revisión legal frente a licencias personalizadas, especialmente si quieres usar el modelo dentro de una aplicación comercial o un flujo interno de empresa.

Hardware necesario

Google apunta a máquinas con 16 GB de VRAM o memoria unificada, como equipos con GPU de consumo o MacBooks con memoria unificada.

Estimaciones de memoria:

Configuración Memoria aproximada
Calidad completa ~16 GB
8 bits ~14 GB
4 bits, Q4_K_M ~8 GB

Esto lo hace viable en:

  • una GPU gaming convencional;
  • un MacBook de 16 GB;
  • una estación de trabajo de gama media;
  • entornos locales donde no quieres enviar datos a la nube.

Si tu hardware es más limitado, los modelos E2B y E4B pueden ser opciones más ligeras.

Limitaciones a considerar

Como cualquier modelo abierto de este tamaño, Gemma 4 12B tiene límites:

  • puede producir información incorrecta o desactualizada;
  • puede reflejar sesgos de sus datos de entrenamiento;
  • puede fallar con sarcasmo, matices o lenguaje figurado;
  • el razonamiento de sentido común no es perfecto;
  • la calidad depende mucho del prompt y del contexto;
  • no sustituye a un modelo cloud de frontera para razonamiento complejo.

Para producción, aplica validaciones:

Modelo local
   ↓
Validación de formato
   ↓
Reglas de negocio
   ↓
Revisión humana si el riesgo es alto
   ↓
Acción o respuesta final
Enter fullscreen mode Exit fullscreen mode

Preguntas frecuentes

¿Gemma 4 12B es gratis?

Sí. Los pesos son de código abierto bajo Apache 2.0 y se pueden descargar gratis desde Hugging Face y Kaggle. Solo pagas por el hardware o la nube donde lo ejecutes. Consulta cómo usar Gemma 4 12B gratis.

¿Puede entender audio de verdad?

Sí. Toma audio crudo como entrada y puede transcribir voz, identificar oradores y responder preguntas sobre sonido. La diferencia clave es que lo hace de forma nativa, sin depender de un modelo de voz separado.

¿Cuál es la diferencia entre gemma-4-12B y gemma-4-12B-it?

gemma-4-12B es el modelo base preentrenado. gemma-4-12B-it está ajustado para instrucciones, chat, uso de herramientas y seguimiento de prompts. Para la mayoría de aplicaciones conversacionales, empieza con gemma-4-12B-it.

¿En qué se diferencia de los modelos 26B y 31B?

Gemma 4 12B es denso, sin codificador y está ajustado para máquinas de 16 GB. El 26B es un modelo Mixture-of-Experts con 4B activos y 26B totales. El 31B es un modelo denso más grande para mayor calidad. Los modelos grandes puntúan más alto, pero requieren más memoria.

¿Soporta llamada a herramientas?

Sí. Admite llamadas a funciones de texto y multimodales, además de un modo opcional de pensamiento para razonamiento paso a paso. Esto lo hace útil para flujos agentivos donde el modelo debe planificar y ejecutar acciones mediante herramientas externas.

¿Cómo se compara con Gemini 3.5?

Son modelos para objetivos distintos. Gemini 3.5 es un modelo alojado de frontera de Google; puedes leer más en qué es Gemini 3.5. Gemma 4 12B es un modelo abierto que ejecutas tú mismo. Cambias parte de la calidad máxima por privacidad, uso offline y coste cero por token.

Top comments (0)