O Google lançou o Gemma 4 12B em 3 de junho de 2026. É um modelo de pesos abertos com 11,95 bilhões de parâmetros que aceita texto, imagens, áudio e vídeo como entrada, retorna texto e foi projetado para rodar localmente em máquinas com 16GB de memória. O ponto mais importante para desenvolvedores: ele traz entrada de áudio nativa em um modelo médio, sem depender de codificadores separados de visão ou áudio.
Na prática, isso muda a forma como você pode montar aplicações multimodais locais. Em vez de carregar um encoder de imagem, outro de áudio e depois um LLM, o Gemma 4 12B recebe patches de imagem brutos e formas de onda de áudio diretamente no mesmo modelo. O resultado é um único modelo de 12B que lida com quatro tipos de entrada, funciona offline e é distribuído sob licença Apache 2.0, adequada para uso comercial.
Este guia resume onde o modelo se encaixa na família Gemma 4, quais recursos importam para implementação e como pensar em casos de uso locais. Se você quiser executar o modelo agora, veja também o guia complementar sobre como usar o Gemma 4 12B gratuitamente.
Gemma 4 12B em um relance
| Especificação | Valor |
|---|---|
| Lançado | 3 de junho de 2026 |
| Parâmetros | 11.95B, denso |
| Entradas | Texto, imagem, áudio, vídeo |
| Saída | Texto |
| Janela de contexto | 256K tokens |
| Arquitetura | Multimodal unificada sem codificador |
| Licença | Apache 2.0 |
| Executa em | 16GB VRAM ou memória unificada, cerca de 8GB em 4-bit |
| Variantes |
google/gemma-4-12B base, google/gemma-4-12B-it ajustado por instrução |
Quando usar o Gemma 4 12B
Use o Gemma 4 12B quando você precisar de:
- inferência local ou offline;
- entrada multimodal em um único modelo;
- processamento de áudio sem pipeline separado de ASR;
- contexto longo, até 256K tokens;
- licença permissiva para uso comercial;
- integração com ferramentas locais via chat, função ou endpoint HTTP.
Evite tratá-lo como substituto direto de um modelo de nuvem de ponta em tarefas de raciocínio muito difíceis. O foco do 12B é entregar boa qualidade multimodal em hardware de consumidor.
Ele fica no meio da linha Gemma 4. O Google o posiciona como uma ponte entre o E4B, mais adequado para dispositivos de borda, e o 26B Mixture-of-Experts, oferecendo qualidade próxima ao modelo maior em vários benchmarks com menos da metade do consumo de memória.
Onde o 12B se encaixa na família Gemma 4
O Gemma 4 não foi lançado de uma vez. Os modelos E2B, E4B, 26B e 31B chegaram em 31 de março de 2026. O 12B foi adicionado em 3 de junho.
| Modelo | Tamanho | Contexto | Notas |
|---|---|---|---|
| Gemma 4 E2B | 2.3B efetivo, 5.1B bruto | 128K | Em dispositivo, entrada de áudio |
| Gemma 4 E4B | 4.5B efetivo, 8B bruto | 128K | Compacto, entrada de áudio |
| Gemma 4 12B | 11.95B denso | 256K | Sem codificador, entrada de áudio |
| Gemma 4 26B A4B | 4B ativo / 26B total, MoE | 256K | Mistura de especialistas |
| Gemma 4 31B | 31B denso | 256K | Desempenho de ponta |
O 12B é o único modelo da família construído com o design sem codificador. Os demais mantêm um codificador de visão tradicional e, nos dois menores, um codificador de áudio conformer. Isso torna o 12B a demonstração mais clara da direção do Google para IA multimodal em dispositivos.
Para comparar o cenário com outros modelos abertos, veja a comparação entre MiniMax M3, DeepSeek V4 e Qwen 3.7 e a análise sobre a guerra de preços de modelos de pesos abertos.
O que “sem codificador” significa na implementação
Em modelos multimodais tradicionais, o pipeline costuma ser:
imagem -> encoder de visão -> embeddings -> projetor -> LLM
áudio -> encoder de áudio -> embeddings -> projetor -> LLM
texto -> tokenizer -> LLM
Isso significa mais componentes para carregar, quantizar, servir e manter em memória.
No Gemma 4 12B, o fluxo é mais direto:
imagem bruta -> patches -> espaço de embedding do modelo
áudio bruto -> projeção -> espaço de embedding do modelo
texto -> tokens -> mesmo modelo
Segundo o documento do Google:
- Visão: um módulo de embedding leve, composto por uma multiplicação de matriz, embeddings posicionais e normalização, projeta patches de imagem brutos diretamente no espaço de embedding do modelo.
- Áudio: o codificador de áudio foi removido. O áudio bruto é projetado no mesmo espaço dimensional dos tokens de texto.
Duas escolhas ajudam a reduzir custo em hardware menor:
- Embeddings por camada, ou PLE: cada camada do decodificador recebe um pequeno embedding dedicado, combinando identidade de token com projeção sensível ao contexto.
- Cache KV compartilhado: camadas finais reutilizam tensores key-value de camadas anteriores, reduzindo memória em contexto longo.
O Google também inclui um rascunhador de Previsão de Múltiplos Tokens, MTP, para decodificação especulativa. Isso pode acelerar a inferência de ponta a ponta em até aproximadamente 3x sem alterar a qualidade da saída.
Como estruturar prompts multimodais
O modelo retorna texto em todos os casos, mas a ordem das modalidades importa. O template de chat espera:
imagem antes do prompt de texto
áudio depois do prompt de texto
Um fluxo conceitual seria:
[imagem]
Descreva a interface e identifique possíveis problemas de acessibilidade.
[áudio]
Casos práticos:
- transcrever uma reunião e resumir decisões;
- analisar um vídeo usando frames e áudio;
- explicar uma captura de tela;
- responder perguntas sobre sons não verbais;
- combinar documento, imagem e áudio no mesmo contexto.
Áudio nativo: onde isso muda o pipeline
Muitos modelos abertos já aceitam imagens. O diferencial do Gemma 4 12B é aceitar áudio nativamente no mesmo modelo que processa texto e visão.
Isso permite construir pipelines locais para:
- ASR, reconhecimento automático de fala;
- transcrição de reuniões;
- diarização de locutor, ou seja, quem falou quando;
- perguntas sobre áudio, incluindo sons não verbais;
- compreensão de vídeo com áudio, não apenas frames;
- análise de UI ou imagens, como legendagem e raciocínio visual.
Em vez de manter um serviço de fala separado, você pode testar um único modelo como interface multimodal principal.
Benchmarks publicados
Estas são as pontuações publicadas para o gemma-4-12B-it, ajustado por instrução, no card do modelo no Hugging Face:
| Benchmark | Gemma 4 12B-it |
|---|---|
| MMLU Pro, raciocínio | 77.2% |
| AIME 2026, matemática sem ferramentas | 77.5% |
| GPQA Diamond, ciência | 78.8% |
| LiveCodeBench v6, codificação | 72.0% |
| Codeforces, ELO | 1659 |
| MMMU Pro, visão | 69.1% |
| MATH-Vision | 79.7% |
| MRCR v2, 128K, 8-agulhas, contexto longo | 43.4% |
Comparação com modelos vizinhos da família:
| Benchmark | E4B | 12B | 26B A4B | 31B |
|---|---|---|---|---|
| MMLU Pro | 69.4% | 77.2% | 82.6% | 85.2% |
| AIME 2026 | 42.5% | 77.5% | 88.3% | 89.2% |
| GPQA Diamond | 58.6% | 78.8% | 82.3% | 84.3% |
| LiveCodeBench v6 | 52.0% | 72.0% | 77.1% | 80.0% |
O padrão é simples: o 12B fica bem acima do E4B e se aproxima do 26B MoE em vários testes, mantendo um perfil mais viável para máquinas locais.
O que muda em relação ao Gemma 3
Se você já usou o Gemma 3, os pontos principais são:
- Áudio nativo: o Gemma 3 era focado em texto e visão. O 12B adiciona som e vídeo com áudio.
- Design sem codificador: não há codificador de visão ou áudio acoplado para carregar separadamente.
- Contexto de 256K: mais espaço para documentos longos, transcrições e bases de código multifile.
- Licença Apache 2.0: o Gemma 4 usa uma licença permissiva mais simples para uso comercial e redistribuição.
O que você pode construir
O 12B é mais útil quando os dados devem permanecer no dispositivo ou quando você quer reduzir dependência de APIs externas.
Ideias de implementação:
-
Assistente offline de desktop
- lê tela;
- ouve microfone;
- responde sem enviar dados para a nuvem.
-
Ferramenta local de reuniões
- transcreve áudio;
- identifica locutores;
- resume decisões;
- gera tarefas.
-
Pipeline de documentos e mídia
- combina PDF, captura de tela e áudio;
- resume conteúdo;
- extrai campos;
- responde perguntas sobre o material.
-
Agente local com ferramentas
- usa chamada de função;
- planeja etapas;
- chama scripts locais;
- valida respostas antes de agir.
-
Assistente de código
- ajuda em refatoração;
- explica arquivos;
- gera testes;
- trabalha com contexto longo.
Um exemplo de fluxo para testar um endpoint local:
curl http://localhost:11434/api/chat \
-H "Content-Type: application/json" \
-d '{
"model": "gemma-4-12b-it",
"messages": [
{
"role": "user",
"content": "Resuma este requisito em tarefas técnicas para implementação."
}
]
}'
Ajuste o endpoint conforme o executor usado, como Ollama, llama.cpp ou outro servidor compatível.
Ao conectar um modelo local a uma aplicação, valide o formato de request e response antes de escrever a integração final. Uma ferramenta como o Apidog permite salvar o endpoint local, enviar prompts de exemplo e verificar o JSON retornado. Você pode baixar o Apidog gratuitamente e apontá-lo para o servidor local. Veja também o guia de uso gratuito.
Licença e uso comercial
O Gemma 4 12B é lançado sob licença Apache 2.0. Em termos práticos:
- você pode usá-lo comercialmente;
- pode modificá-lo, ajustá-lo e redistribuí-lo;
- pode executá-lo em produtos de código fechado;
- mantém suas saídas.
Essa é uma mudança importante em relação à licença Gemma anterior, que trazia termos próprios de política de uso do Google. A Apache 2.0 é uma licença permissiva comum em infraestrutura open source, o que tende a simplificar a revisão legal.
Hardware necessário
O alvo do Google é uma máquina com 16GB de VRAM ou memória unificada, como em Macs Apple Silicon. A quantização reduz o consumo:
| Modo | Memória aproximada |
|---|---|
| Qualidade total | cerca de 16GB |
| 8-bit | aproximadamente 14GB |
| 4-bit, Q4_K_M | cerca de 8GB |
Isso coloca o 12B ao alcance de:
- GPU de jogos comum;
- MacBook com 16GB;
- workstation de médio porte;
- máquina local para protótipos multimodais.
Se o hardware for mais limitado, os modelos E2B e E4B exigem menos memória.
Checklist para começar
Antes de integrar o Gemma 4 12B em uma aplicação, valide:
- [ ] qual variante será usada:
gemma-4-12Bougemma-4-12B-it; - [ ] qual quantização cabe no hardware;
- [ ] se o executor suporta as modalidades necessárias;
- [ ] ordem correta de imagem, texto e áudio no template;
- [ ] formato de chamada de ferramenta, se houver;
- [ ] limites de latência para sua aplicação;
- [ ] política de verificação de fatos para respostas críticas;
- [ ] logs locais e privacidade dos arquivos processados.
Limitações
O Google destaca algumas compensações na descrição do modelo:
- pode produzir fatos incorretos ou desatualizados;
- pode refletir vieses dos dados de treinamento;
- pode falhar em sarcasmo, nuances e linguagem figurada;
- tem limites de raciocínio de senso comum;
- depende muito da clareza do prompt e do contexto fornecido.
Essas são limitações esperadas para um modelo aberto de 12B. O objetivo não é substituir um modelo de nuvem de ponta em todos os cenários, mas oferecer IA multimodal local para casos em que privacidade, custo e offline-first importam.
Perguntas frequentes
O Gemma 4 12B é gratuito?
Sim. Os pesos são abertos sob licença Apache 2.0 e gratuitos para download no Hugging Face e Kaggle. Você paga apenas pelo hardware ou pela nuvem onde executar. Veja como usar o Gemma 4 12B gratuitamente.
O Gemma 4 12B realmente entende áudio?
Sim. Ele recebe áudio bruto como entrada e pode transcrever fala, identificar locutores e responder perguntas sobre sons. O diferencial é fazer isso nativamente, sem depender de um modelo de fala separado.
Qual é a diferença entre gemma-4-12B e gemma-4-12B-it?
gemma-4-12B é o modelo base pré-treinado. gemma-4-12B-it é ajustado por instrução para chat, uso de ferramentas e seguimento de comandos. Para aplicações interativas, normalmente a versão -it é a mais adequada.
Como o 12B difere dos 26B e 31B?
O 12B é denso, sem codificador e otimizado para máquinas com 16GB. O 26B é um modelo Mixture-of-Experts, com 4B ativos e 26B totais. O 31B é um modelo denso maior para maior qualidade. Os modelos maiores pontuam melhor em benchmarks, mas exigem mais memória.
O Gemma 4 12B suporta chamada de ferramentas?
Sim. Ele suporta chamada de função de texto e multimodal, além de um modo opcional de pensamento para raciocínio passo a passo. Isso o torna útil para fluxos agenticos locais.
Como ele se compara ao Gemini 3.5?
São propostas diferentes. O Gemini 3.5 é um modelo hospedado de ponta do Google; veja o que é o Gemini 3.5. O Gemma 4 12B é um modelo aberto que você executa por conta própria. Você troca parte da qualidade máxima por privacidade, uso offline e custo zero por token.

Top comments (0)