Moprius

Posted on May 15

Hunyuan Preview: o gigante chinês entra de vez na corrida dos modelos abertos

#agents #ai #opensource #news

Quando se fala em IA chinesa open source, os nomes que costumam vir à cabeça são DeepSeek, Qwen, GLM, MiniMax, Kimi — modelos saídos de laboratórios e empresas relativamente pequenas em comparação aos colossos do setor. Falta, nessa lista, um peso pesado óbvio: a Tencent. Maior empresa da China, dona do WeChat (uma espécie de WhatsApp, banco, marketplace e rede social fundidos em um único aplicativo), a Tencent até agora aparecia pouco nas conversas sobre modelos abertos competitivos. O Hunyuan Preview muda esse cenário.

O que é o Hunyuan Preview

O Hunyuan-A13B Preview (também referido como HY3 Preview) é um modelo open source da Tencent, disponibilizado no Hugging Face com pesos abertos. A pronúncia do nome, para quem se aventura no mandarim, fica algo próximo de "ruan-san", e não "hai-san" — uma confusão comum entre falantes ocidentais, já que o "H" do pinyin tem som diferente do esperado.

A ficha técnica chama atenção:

295 bilhões de parâmetros totais
21 bilhões de parâmetros ativos por token
Arquitetura Mixture of Experts (MoE)
Janela de contexto de 256 mil tokens
Suporte a MTP (Multi-Token Prediction)
Modos de "thinking" configuráveis (low e high)

Para efeito de comparação, o Kimi K2 opera na faixa de 1 trilhão de parâmetros, enquanto modelos como GLM 4.5 e DeepSeek V3 ficam em patamares semelhantes ao Hunyuan. O ponto interessante é justamente esse: com cerca de 30% do tamanho do Kimi, o Hunyuan se propõe a chegar perto em capacidade prática.

Mixture of Experts: por que importa

A arquitetura MoE é o que torna o modelo viável fora de data centers gigantes. Em um modelo "denso" tradicional, cada token gerado precisa passar por todos os parâmetros da rede — se o modelo tem 295 bilhões de parâmetros, todos eles trabalham em cada palavra produzida. Isso é caro em memória e devastador em velocidade.

No MoE, o modelo é dividido em "especialistas" — sub-redes que se ativam seletivamente. Para cada token, um roteador escolhe um pequeno subconjunto de especialistas para fazer o trabalho. No caso do Hunyuan, são 21 bilhões de parâmetros ativos por vez, de um total de 295 bilhões. O efeito prático é que a inferência tem o custo de um modelo de 21B, mas o conhecimento e a capacidade de um modelo várias vezes maior.

A contrapartida é o consumo de memória: o modelo inteiro precisa estar carregado na RAM ou na VRAM, mesmo que só uma fração esteja em uso a cada passo. Por isso o MoE é especialmente amigável para arquiteturas com muita memória unificada (como os Macs da linha Studio com chips M3/M4 Ultra) e menos prático em GPUs tradicionais, onde 24 ou 32 GB de VRAM são o teto comum.

MTP: a moda do "Multi-Token Prediction"

O MTP é uma das técnicas que mais ganharam tração no último ano e está presente em quase todos os modelos chineses recentes de ponta. A ideia básica é simples: em vez de gerar um token de cada vez, o modelo tenta prever vários tokens à frente de uma só vez.

Na prática, funciona como uma espécie de "decodificação especulativa interna". Um modelo menor (ou cabeças auxiliares acopladas ao modelo principal) palpita vários tokens à frente, e o modelo grande apenas valida se aquela sequência faz sentido. Se faz, todos os tokens são aceitos de uma vez; se não, descarta-se a partir do ponto em que a divergência aparece, e o processo recomeça.

O ganho é significativo, especialmente em hardware com largura de banda limitada de memória — o gargalo real da inferência local não costuma ser o poder de cálculo da GPU, e sim a velocidade com que os pesos do modelo são lidos da memória. Quando uma única passagem produz dois, três ou quatro tokens em vez de um, a velocidade efetiva pode dobrar ou triplicar sem grandes alterações na receita do modelo.

Janela de contexto e modo de raciocínio

Os 256 mil tokens de contexto colocam o Hunyuan no mesmo patamar dos modelos comerciais de fronteira. Para fins práticos, isso significa caber confortavelmente bases de código médias, livros inteiros ou históricos longos de conversa sem precisar recorrer a estratégias de compressão ou recuperação.

O sistema de "thinking" com níveis configuráveis (low/high) segue a tendência inaugurada pelos modelos de raciocínio. No nível low, o modelo pensa pouco antes de responder — útil para tarefas diretas. No high, a cadeia de raciocínio se estende, com o modelo elaborando planos, esboçando estruturas e revisando o próprio raciocínio antes de produzir a resposta final. Em tarefas como programação de jogos completos em um único arquivo, o modo high pode consumir vários milhares de tokens só na fase de pensamento — mas o resultado tende a ser drasticamente melhor.

Como ele se compara

Nos benchmarks divulgados, o Hunyuan Preview se posiciona ombro a ombro com Gemini 3.1 Pro, GLM 5, Qwen 2.5 e GPT-5.4 — modelos da geração anterior, vale dizer, já que GLM 5.1, Qwen 2.6 e GPT-5.5 já existem. Em SWE-bench, benchmark que mede capacidade real de resolver issues em repositórios de código, o salto da geração HY2 para HY3 é considerável, maior do que os saltos vistos entre versões consecutivas de Qwen ou GLM.

A advertência usual sobre benchmarks vale aqui: os números refletem desempenho em tarefas padronizadas, e a experiência no uso diário pode ser bem diferente. Mas o quadro geral indica um modelo competitivo, ainda que não líder absoluto.

Comportamento na prática

Em testes de geração de aplicações web completas — uma página HTML usando as APIs nativas de Text-to-Speech e Speech-to-Text do navegador para apoio ao estudo de mandarim, por exemplo — o modelo entrega código funcional, com um design razoável (embora não excepcional) e implementação correta das integrações com a Web Speech API. Pequenos detalhes de usabilidade, como o posicionamento dos elementos, ficam abaixo do esperado, mas nada que exija intervenção pesada.

Para jogos mais complexos, o resultado é misto. Um clone de jogo de sinuca em HTML/Canvas saiu praticamente funcional, com física razoável de colisão entre bolas, controle de taco por mouse e visual em 2D. Apenas um erro de digitação no código (uma variável duplicando uma letra) impediu a execução de primeira — correção trivial.

Um clone de Doom usando Three.js também funcionou na primeira tentativa, sem erros de sintaxe. O resultado é simples: uma arena aberta, alguns inimigos com movimentos básicos, uma pistola e uma shotgun. Falta munição reabastecível, sistema de fases, variedade real de inimigos. Mas para um único prompt e um único arquivo, o esqueleto está lá.

Já em tarefas mais ambiciosas, como um clone de Zelda em estilo voxel com mapa, inimigos, sistema de chaves e boss — descritas em prompts longos e detalhados —, o modelo tropeça. O código gerado precisou de várias rodadas de correção, e mesmo após ajustes, parte das mecânicas especificadas no prompt acabou não sendo implementada. É o tipo de tarefa em que modelos no topo absoluto da curva (como Qwen 3.6 Max) ainda têm vantagem clara.

Performance local: o caso do Mac Studio

Aqui aparece uma das discussões mais interessantes sobre o ecossistema de modelos abertos: onde rodar.

Em um Mac Studio M3 Ultra com 256 GB de memória unificada, o Hunyuan Preview em quantização Q4 (aproximadamente 166 GB de pesos) roda confortavelmente entre 20 e 24 tokens por segundo no início de uma geração, caindo para 15 a 20 tokens por segundo conforme o contexto cresce e atinge 10–15 mil tokens. Não é uma experiência fulminante, mas é perfeitamente utilizável.

A comparação relevante é com modelos densos rodando em GPUs Nvidia. Uma RTX 5090 com 32 GB de VRAM consegue rodar um Qwen 3.6 de 27 bilhões de parâmetros denso em Q4 a 50–60 tokens por segundo — o dobro da velocidade. O problema é que não cabe nada muito maior do que isso na VRAM. Para rodar um modelo de 295B/21B-ativos como o Hunyuan em GPUs Nvidia tradicionais, é preciso um cluster ou hardware especializado.

A largura de banda explica boa parte da diferença: a 5090 tem cerca de 1,7 TB/s de banda de memória, contra ~800 GB/s do M3 Ultra. Em modelos densos, em que toda a memória precisa ser percorrida a cada token, a GPU vence com folga. Em modelos MoE como o Hunyuan, em que apenas 21B dos 295B parâmetros são tocados por token, o Mac compensa parte da desvantagem de banda com a possibilidade de carregar o modelo inteiro.

A pergunta de fundo — vale mais rodar um modelo denso de 27B ou um MoE de 295B/21B-ativos? — não tem resposta única. Modelos MoE bem treinados costumam ser, em capacidade absoluta, equivalentes a modelos densos várias vezes maiores que sua contagem de parâmetros ativos. Em teoria, 21B ativos em um MoE bem feito rivalizam com um denso de 50–80B. Na prática, depende do treinamento, dos dados, da arquitetura específica e da tarefa.

Quantização: o detalhe que muda tudo

Vale uma nota sobre quantização. O modelo nativo, em precisão de 16 bits, ocuparia perto de 600 GB — fora do alcance de qualquer hardware de consumo. As versões Q4 reduzem cada peso a quatro bits, com perda mínima de qualidade na maior parte das tarefas. Versões Q8 ficam no meio do caminho: mais fiéis ao modelo original, mas com o dobro do tamanho em memória.

Plataformas como o OpenRouter geralmente servem os modelos em quantização não documentada, o que torna difícil comparar diretamente o desempenho local com o desempenho via API. Para usuários que rodam o modelo no próprio hardware, a escolha da quantização é uma decisão de compromisso entre velocidade, memória e qualidade final.

O que isso significa para o ecossistema

O Hunyuan Preview consolida algo que vinha se desenhando ao longo de 2025: o open source chinês não é mais uma curiosidade ou uma alternativa de segunda linha. É a frente real de inovação em modelos abertos. Empresas que antes pareciam alheias a essa corrida — como a própria Tencent — estão entrando com modelos de qualidade competitiva e licenças permissivas.

Para desenvolvedores e empresas que querem soluções de IA sem depender de APIs fechadas, o cardápio nunca foi tão amplo. Modelos densos de 20–30B para hardware modesto, MoEs gigantes para quem tem memória sobrando, modelos especializados em raciocínio, em geração de código, em multimodalidade. A "comoditização" da inferência avançada está, dia a dia, deixando de ser uma promessa.

A próxima geração de hardware — Macs com chips M5 e M6, GPUs com mais VRAM, aceleradores dedicados — promete tornar essa experiência ainda mais fluida. O tempo de processamento de prefill (a fase em que o modelo "lê" o contexto antes de começar a responder), hoje um dos pontos fracos dos chips Apple comparados às GPUs Nvidia, deve melhorar substancialmente. Quando isso acontecer, rodar um modelo de 300 bilhões de parâmetros em casa será tão trivial quanto rodar um modelo de 7B é hoje.

E o Hunyuan Preview, com seus 21 bilhões de parâmetros ativos e sua licença aberta, é um dos pilares dessa transição.

DEV Community