DEV Community

André N. Darcie
André N. Darcie

Posted on

Qwen3.5 rodando localmente: super rápido e com ótima qualidade

Testei o Qwen3.5 rodando localmente e fiquei impressionado.

Resolvi testar o novo modelo open source Qwen3.5 no meu notebook, sem muita pretensão. A ideia era só ver como ele se comportava rodando localmente.

O que aconteceu me surpreendeu bastante: ele é brutalmente rápido.

As respostas vinham tão rápidas e tão boas que em um momento eu parei e fui conferir se aquilo realmente estava rodando em localhost ou se, por algum motivo, estava chamando alguma API externa. Mas não. Era tudo local mesmo.

Exemplo:

LLM local

O Qwen3.5-9B é desenvolvido pela Alibaba e tem 9 bilhões de parâmetros. Suporta 256K tokens de contexto e 201 idiomas.

Uma IA rodando 100% offline no notebook, sem API, sem custo e sem enviar dados para lugar nenhum.

Hardware

  • RTX 3060 Laptop (6GB VRAM)
  • 16GB RAM
  • Windows 11

Stack

  • Modelo: Qwen3.5-9B UD-Q4_K_XL (Unsloth Dynamic 4-bit)
  • Runtime: llama.cpp com CUDA
  • Interface: llama-server com web UI em localhost:8080

Performance

A performance ficou em torno de 45 tokens por segundo, rodando completamente na GPU.

Para um notebook, isso é impressionante.

Instalação

Segui o guia oficial da Unsloth para rodar o modelo:

https://unsloth.ai/docs/models/qwen3.5

Foi bem direto de configurar.

Impressão geral

A sensação é que LLMs locais realmente estão chegando em um nível muito prático de uso. Rodar um modelo desse porte offline, no próprio notebook, com essa velocidade e qualidade de resposta, é algo que até pouco tempo atrás parecia distante.

E agora está simplesmente rodando em localhost.

Top comments (0)