Resumo
Gemma 4 foi lançado em 3 de abril de 2026, e o Ollama v0.20.0 adicionou suporte no mesmo dia. Você pode baixar e executar o modelo padrão gemma4:e4b em apenas dois comandos. Este guia apresenta todos os passos práticos para configurar, escolher variantes, usar a API e testar endpoints locais do Gemma 4 com o Apidog.
Introdução
Google lançou o Gemma 4 em 2 de abril de 2026. Em 24 horas, o Ollama lançou a v0.20.0 com suporte a todas as quatro variantes do modelo.
Para desenvolvedores, isso é uma grande mudança: o Gemma 4 salta de 20,8% (Gemma 3) para 89,2% no AIME 2026, e de 110 para 2150 ELO no Codeforces. Ele oferece chamada de função nativa, modos de raciocínio configuráveis, contexto de 256K em variantes maiores — tudo rodando localmente.
Se você está criando aplicações API-first, rodar o Gemma 4 localmente oferece uma camada de IA rápida e privada para gerar dados de mock, escrever cenários de teste e validar respostas sem expor dados a servidores remotos.
💡 Dica: Com o Gemma 4 rodando localmente, o Smart Mock do Apidog gera dados realistas para respostas de API usando inferência baseada em IA. Basta definir o schema da API e o Apidog gera mocks compatíveis — útil para testes consistentes sem fixtures manuais.
Este guia cobre da instalação à sua primeira chamada de API local.
O que há de novo no Gemma 4
Gemma 4 vem em quatro variantes, cada uma com capacidades distintas.
Principais novidades:
- Raciocínio e codificação: O modelo 31B atinge 80% no LiveCodeBench v6 (vs. 29,1% do 27B anterior).
- Mixture-of-Experts (MoE): A variante 26B usa apenas 4B de parâmetros ativos por inferência, entregando ótima qualidade com menor custo computacional.
- Contexto longo: Modelos E2B/E4B suportam 128K tokens; 26B/31B suportam 256K.
- Chamada de função nativa: Todos os modelos aceitam schemas de função e retornam JSON válido.
- Entrada multimodal: E2B/E4B aceitam áudio e imagem.
- Modos de raciocínio: Ative/desative chain-of-thought por requisição.
Variantes do modelo Gemma 4 explicadas
Escolha o modelo certo para seu hardware:
| Modelo | Tamanho em disco | Contexto | Arquitetura | Melhor para |
|---|---|---|---|---|
gemma4:e2b |
7.2 GB | 128K | Densa | Laptops, edge, áudio/imagem |
gemma4:e4b |
9.6 GB | 128K | Densa | Maioria dos desenvolvedores |
gemma4:26b |
18 GB | 256K | MoE (4B) | Qualidade por GB |
gemma4:31b |
20 GB | 256K | Densa | Máxima qualidade |
e4b é o modelo padrão ao rodar ollama run gemma4. Cabe em GPUs com 10+ GB de VRAM ou memória unificada do Apple Silicon.
O 26b (MoE) vale testar se você tem 20+ GB de RAM: qualidade próxima a modelos grandes com desempenho de 4B.
Pré-requisitos
-
Ollama v0.20.0 ou superior
- Verifique:
ollama --version- Atualize se necessário:
# macOS brew upgrade ollama # Linux curl -fsSL https://ollama.com/install.sh | sh- No Windows, baixe de ollama.com.
-
Hardware mínimo:
-
gemma4:e2b: 8 GB RAM (16 GB recomendado) -
gemma4:e4b: 10 GB VRAM ou 16 GB unificada -
gemma4:26b: 20+ GB RAM/unificada -
gemma4:31b: 24 GB VRAM ou 32 GB unificada
-
Instalando e executando o Gemma 4
Execute o modelo padrão:
ollama run gemma4
Na primeira execução, ~9,6 GB serão baixados. Você entra em uma shell interativa:
>>> Quais são os códigos de status HTTP para erros de cliente?
Para variantes específicas:
# Modelo edge, menor
ollama run gemma4:e2b
# Modelo MoE
ollama run gemma4:26b
# Flagship
ollama run gemma4:31b
Para baixar sem rodar:
ollama pull gemma4
ollama pull gemma4:26b
Liste modelos baixados:
ollama list
Usando a API Gemma 4 localmente
Ollama expõe uma API REST em http://localhost:11434.
Gerar uma conclusão
curl http://localhost:11434/api/generate \
-H "Content-Type: application/json" \
-d '{
"model": "gemma4",
"prompt": "Escreva uma resposta JSON para um endpoint de API de perfil de usuário",
"stream": false
}'
Chat (endpoint OpenAI)
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gemma4",
"messages": [
{
"role": "user",
"content": "Gere um mock JSON realista para uma resposta de API de pedido de e-commerce"
}
]
}'
Cliente Python (requests)
import requests
def ask_gemma4(prompt: str, model: str = "gemma4") -> str:
response = requests.post(
"http://localhost:11434/api/generate",
json={
"model": model,
"prompt": prompt,
"stream": False
}
)
response.raise_for_status()
return response.json()["response"]
result = ask_gemma4("Liste os campos que uma resposta de API de pagamento deve incluir")
print(result)
Usando o SDK Python do OpenAI
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama" # requerido pelo SDK
)
response = client.chat.completions.create(
model="gemma4",
messages=[
{
"role": "system",
"content": "Você gera dados de resposta de API realistas em formato JSON."
},
{
"role": "user",
"content": "Gere uma resposta de exemplo para um endpoint GET /users/{id}"
}
]
)
print(response.choices[0].message.content)
Usando chamada de função com o Gemma 4
Gemma 4 suporta chamada de função nativa. Defina um schema e o modelo retornará JSON validado.
Exemplo:
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama"
)
tools = [
{
"type": "function",
"function": {
"name": "get_user",
"description": "Recuperar um usuário por ID da API",
"parameters": {
"type": "object",
"properties": {
"user_id": {
"type": "integer",
"description": "O ID de usuário único"
},
"include_orders": {
"type": "boolean",
"description": "Se deve incluir o histórico de pedidos"
}
},
"required": ["user_id"]
}
}
}
]
response = client.chat.completions.create(
model="gemma4",
messages=[
{"role": "user", "content": "Obter usuário 42 com seu histórico de pedidos"}
],
tools=tools,
tool_choice="auto"
)
tool_call = response.choices[0].message.tool_calls[0]
print(tool_call.function.name) # get_user
print(tool_call.function.arguments) # {"user_id": 42, "include_orders": true}
Ativando o modo de raciocínio
Para tarefas complexas (ex: testes, análise de specs), ative o raciocínio chain-of-thought:
response = client.chat.completions.create(
model="gemma4",
messages=[
{
"role": "user",
"content": "Projetar um cenário de teste completo para uma API de processamento de pagamentos com casos extremos"
}
],
extra_body={"think": True}
)
print(response.choices[0].message.content)
Para prompts simples, desative para ganhar desempenho.
Testando respostas da API Gemma 4 com Apidog
Com o Gemma 4 rodando, teste seus endpoints via Apidog:
Passos práticos:
-
Importe a especificação da API do Ollama
- No Apidog, crie projeto e use a base
http://localhost:11434.
- No Apidog, crie projeto e use a base
-
Defina endpoints
-
POST /api/generate(resposta única) -
POST /v1/chat/completions(chat multi-turno) -
GET /api/tags(listar modelos)
-
-
Configure Cenário de Teste
- Passo 1:
GET /api/tags— afirme quegemma4está na lista. - Passo 2:
POST /api/generate— afirme queresponsenão está vazio. - Passo 3:
POST /v1/chat/completions— valide formato da resposta.
- Passo 1:
Use o processador "Extrair Variável" para passar respostas entre passos e simular conversas multi-turno.
-
Valide esquemas de resposta
- Ative o Teste de Contrato do Apidog para garantir aderência ao OpenAPI.
-
Smart Mock para dev paralelo
- Gere respostas mock automáticas e compatíveis com o schema, sem precisar do modelo local rodando.
Entrada multimodal com o Gemma 4
E2B/E4B aceitam imagens (base64) junto ao texto:
import base64
with open("api_diagram.png", "rb") as f:
image_data = base64.b64encode(f.read()).decode()
response = client.chat.completions.create(
model="gemma4:e4b",
messages=[
{
"role": "user",
"content": [
{
"type": "image_url",
"image_url": {
"url": f"data:image/png;base64,{image_data}"
}
},
{
"type": "text",
"text": "Descreva o fluxo da API mostrado neste diagrama e identifique possíveis caminhos de erro"
}
]
}
]
)
Use para analisar diagramas de arquitetura, capturas de documentação ou extrair dados de imagens.
Problemas comuns e soluções
-
Modelo não encontrado: Rode
ollama pull gemma4ou cheque comollama list. -
Inferência lenta na CPU: Use
gemma4:e2bpara melhor desempenho. -
Erros de memória: Veja VRAM/memória com
ollama ps. Se necessário, troque para modelo menor. - Apple Silicon não carrega: Atualize Ollama (v0.20.0+).
-
Porta 11434 ocupada: Use porta customizada:
OLLAMA_HOST=0.0.0.0:11435 ollama serve -
Respostas cortadas: Aumente contexto com
"options": {"num_ctx": 8192}no corpo JSON.
Gemma 4 vs outros modelos locais
| Modelo | Melhor tamanho | Contexto | Chamada de função | Codificação (benchmark) |
|---|---|---|---|---|
| Gemma 4 | e4b (9.6 GB) | 128K-256K | Nativa | 80% LiveCodeBench |
| Llama 3.3 | 70B-Q4 (40 GB) | 128K | Nativa | ~60% LiveCodeBench |
| Qwen3.6-Plus | 72B-Q4 (44 GB) | 128K | Nativa | Forte |
| Mistral Small | 24B (14 GB) | 128K | Nativa | Moderado |
Destaque: O Gemma 4 26B MoE (18 GB) entrega tokens/s superiores aos modelos densos grandes, mantendo ótima qualidade.
Para codificação, o 31B é competitivo com modelos maiores. Para edge/laptops, use o e2b (<8 GB).
Conclusão
Gemma 4 com Ollama entrega uma das melhores experiências locais para desenvolvedores hoje. Instalação rápida, roda na maioria das máquinas, e qualidade de raciocínio/codificação muito superior ao Gemma 3.
Comece com ollama run gemma4, teste a API com Apidog para validar endpoints, e escolha a variante ideal conforme sua carga de trabalho.
Se sua equipe constrói features de API sobre o Gemma 4, combine inferência local com Smart Mock e Cenários de Teste do Apidog para um fluxo completo de desenvolvimento sem dependências remotas.
Perguntas Frequentes
Como atualizo o Gemma 4 no Ollama?
Rode ollama pull gemma4 — baixa só o que mudou.
Posso rodar o Gemma 4 sem GPU?
Sim, mas é lento (1-3 tokens/s). Use e2b para CPUs.
Qual a diferença entre gemma4:e2b e gemma4:e4b?
Ambos são densos para edge. E4B é maior e lida melhor com prompts complexos. E2B é menor e aceita áudio. Para texto, e4b é padrão.
Funciona com LangChain e LlamaIndex?
Sim. Configure o provider Ollama para http://localhost:11434 e use gemma4 como modelo.
A API local é compatível com código OpenAI?
Quase sempre. Só mude o base_url para http://localhost:11434/v1 e forneça qualquer api_key.
Como uso o modo de raciocínio?
Adicione "think": true no extra_body (SDK OpenAI) ou no JSON direto. Desative para tarefas simples.
Posso servir Gemma 4 para outras máquinas?
Sim. Use OLLAMA_HOST=0.0.0.0:11434 ollama serve e acesse pelo IP da máquina.
Qual o melhor modelo Gemma 4 para dev de API?
Para mocks e testes, e4b equilibra velocidade e qualidade. Para análise complexa, 26b entrega melhor custo-benefício.



Top comments (0)