Testei o Qwen3.5 rodando localmente e fiquei impressionado.
Resolvi testar o novo modelo open source Qwen3.5 no meu notebook, sem muita pretensão. A ideia era só ver como ele se comportava rodando localmente.
O que aconteceu me surpreendeu bastante: ele é brutalmente rápido.
As respostas vinham tão rápidas e tão boas que em um momento eu parei e fui conferir se aquilo realmente estava rodando em localhost ou se, por algum motivo, estava chamando alguma API externa. Mas não. Era tudo local mesmo.
LLM local
O Qwen3.5-9B é desenvolvido pela Alibaba e tem 9 bilhões de parâmetros. Suporta 256K tokens de contexto e 201 idiomas.
Uma IA rodando 100% offline no notebook, sem API, sem custo e sem enviar dados para lugar nenhum.
Hardware
- RTX 3060 Laptop (6GB VRAM)
- 16GB RAM
- Windows 11
Stack
- Modelo: Qwen3.5-9B UD-Q4_K_XL (Unsloth Dynamic 4-bit)
- Runtime: llama.cpp com CUDA
- Interface: llama-server com web UI em
localhost:8080
Performance
A performance ficou em torno de 45 tokens por segundo, rodando completamente na GPU.
Para um notebook, isso é impressionante.
Instalação
Segui o guia oficial da Unsloth para rodar o modelo:
https://unsloth.ai/docs/models/qwen3.5
Foi bem direto de configurar.
Impressão geral
A sensação é que LLMs locais realmente estão chegando em um nível muito prático de uso. Rodar um modelo desse porte offline, no próprio notebook, com essa velocidade e qualidade de resposta, é algo que até pouco tempo atrás parecia distante.
E agora está simplesmente rodando em localhost.

Top comments (0)