A Moonshot AI lançou o Kimi K2.6 com uma proposta clara: definir um novo padrão em codificação open source, execução de longo prazo e orquestração multiagente. Com benchmarks como 80,2% no SWE-Bench Verified e 96,4% no AIME 2026, o modelo se posiciona como referência. Todos esses dados vêm do anúncio oficial no kimi.
Este artigo detalha o que é o Kimi K2.6, como a arquitetura Agent Swarm amplia as possibilidades de automação, benchmarks frente a GPT-5.4 e Claude 4.6, e como começar a usar na prática.
💡Quer testar o Kimi K2.6 com suas próprias cargas de trabalho de API? O Apidog pré-configura o endpoint compatível com OpenAI da Moonshot/Kimi em um workspace visual. Importe uma vez, salve seu Bearer token e execute chat por streaming, chamadas de ferramentas e solicitações de visão com histórico completo. Baixe o Apidog gratuitamente.
TL;DR
- Lançamento: Moonshot AI, abril de 2026, código aberto (pesos no Hugging Face, API em platform.kimi.ai).
- Arquitetura: MoE (Mistura de Especialistas), 1T de parâmetros, 32B ativos por token, contexto de 262.144 tokens (256K).
- Saída máxima: até 98.304 tokens por tarefa.
- Agent Swarm: até 300 subagentes, 4.000+ passos por tarefa (3x o K2.5).
- Benchmarks: SWE-Bench Verified 80,2%, Terminal-Bench 2.0 66,7%, AIME 2026 96,4%, HLE-Full (ferramentas) 54,0%, OSWorld-Verified 73,1%.
- Interfaces: Chat kimi.com, Kimi App, Kimi Code, API, pesos abertos.
Kimi K2.6 em um parágrafo
O Kimi K2.6 é o modelo open source mais recente da Moonshot AI, com foco em codificação avançada, execução de longo prazo e automação multiagente (Agent Swarm). Disponível em kimi.com, Kimi App, Kimi Code e API (platform.kimi.ai), ele eleva o gerenciamento de agentes para até 300 subagentes e 4.000+ passos, permitindo sessões autônomas de dias. Se já utiliza Qwen 3.6 (guia OpenRouter) ou Qwen3.5-Omni, o workflow é similar, com ênfase ainda maior em agentes.
A Moonshot publicou benchmarks completos no anúncio do Kimi K2.6. Destaques práticos:
Codificação
| Benchmark | Kimi K2.6 |
|---|---|
| SWE-Bench Verified | 80.2% |
| SWE-Bench Multilingual | 76.7% |
| SWE-Bench Pro | 58.6% |
| Terminal-Bench 2.0 | 66.7% |
- SWE-Bench Verified (80,2%) empata ou supera Claude 4.6, com pesos abertos.
- Terminal-Bench 2.0 (66,7%) é +15,9 pontos vs K2.5, reforçando confiabilidade em shell e arquivos.
Agentes e Ferramentas
| Benchmark | Kimi K2.6 |
|---|---|
| HLE-Full (com ferramentas) | 54.0% |
| BrowseComp | 83.2% (86.3% com Agent Swarm) |
| DeepSearchQA (F1) | 92.5% |
| Toolathlon | 50.0% |
| Claw Eval (pass@3) | 80.9% |
| OSWorld-Verified | 73.1% |
- HLE-Full (54,0%) supera GPT-5.4 e Claude 4.6 em raciocínio + ferramentas.
- OSWorld-Verified (73,1%): K2.6 opera ambiente desktop real, similar ao Claude Code.
Raciocínio e Conhecimento
| Benchmark | Kimi K2.6 |
|---|---|
| AIME 2026 | 96.4% |
| HMMT 2026 (Fev) | 92.7% |
| GPQA-Diamond | 90.5% |
| IMO-AnswerBench | 86.0% |
- AIME 2026 (96,4%): quase perfeito em matemática competitiva.
Visão
| Benchmark | Kimi K2.6 |
|---|---|
| MathVision (com Python) | 93.2% |
| V* (com Python) | 96.9% |
| MMMU-Pro | 79.4% |
| CharXiv (RQ, com Python) | 86.7% |
- Resultados "com Python" mostram visão integrada ao uso de ferramentas: o modelo lê, interpreta e executa código em sequência.
Agent Swarm: o salto estrutural
Agent Swarm é o diferencial do K2.6: orquestração de até 300 subagentes, 4.000+ passos coordenados (vs 100/1.500 no K2.5). Na prática, isso permite:
- Decomposição heterogênea: tarefas divididas conforme a especialidade (código, pesquisa, visão, planejamento) — cada subtarefa vai para o agente certo.
- Inteligência composicional: subagentes trocam estado, produzem documentos, sites, slides e planilhas em uma só sessão — similar à arquitetura Hermes.
- Conversão de documento em habilidade: specs viram "habilidades" preservando estrutura, permitindo que o modelo atue como se tivesse conhecimento tribal.
Exemplos reais do anúncio
- Otimização de inferência Qwen3.5-0.8B no Mac: 12h+, 4.000+ chamadas de ferramentas, throughput de 15 para 193 tokens/s.
- Ajuste do motor financeiro Exchange-core: 13h, 4.000+ linhas de código alteradas, ganho de 185% em throughput.
- Execução autônoma de infraestrutura por 5 dias: gerenciamento multi-threaded e resposta a incidentes sem intervenção humana.
O diferencial aqui não é só o número de parâmetros, mas a escala real de "horas-agente" possíveis.
Como a arquitetura se sustenta
Mistura de especialistas (MoE)
K2.6 é um MoE de 1T com 32B ativos por token: alta capacidade, custo de inferência similar a um modelo denso de 32B. O roteamento eficiente é crucial — mesma linha do GLM-5V Turbo API.
Contexto longo: 262.144 tokens
A janela de contexto chega a 262.144 tokens, geração máxima de 98.304 tokens. Exemplos de uso prático:
- Codebase médio inteiro + contexto para agentes.
- Documento legal ou paper completo + Q&A multi-turn.
- Histórico de chamadas de ferramentas de sessões de vários dias.
A pilha de atenção foi otimizada para manter estabilidade onde o K2.5 degradava.
Amostragem padrão
Use temperature: 1.0 e top_p: 1.0 (padrão recomendado). Diferente de modelos OpenAI/Anthropic, o K2.6 foi ajustado para gerar bons resultados mesmo em temperaturas mais altas.
Claw Groups: camada multiagente acima do modelo
Claw Groups é a camada de colaboração multiagente/humana apresentada no anúncio: múltiplos agentes e humanos atuando juntos em tarefas, seja em laptops, mobile ou nuvem. Funcionalidades práticas:
- Correspondência dinâmica por kit de ferramentas.
- Detecção de falhas e reatribuição automática.
- Deploy entre dispositivos.
- Checkpoints para intervenção humana.
O score Claw Eval (80,9% pass@3) mede robustez nesse cenário. Conceito similar ao da empresa de agentes Paperclip.
Desenvolvimento guiado por design e agentes proativos
K2.6 gera frontend full-stack: autenticação, banco de dados, transações, integração com ferramentas de imagem/vídeo, animações, componentes interativos e saída pronta para produção.
Agentes proativos rodam 24/7 em OpenClaw/Hermes, orquestrando múltiplos apps em background — padrão “agente que nunca dorme” visto em Google Agent Smith e arquiteturas customizadas (build your own Claude Code).
Kimi K2.6 vs modelos fechados
Comparativo oficial (fonte):
| Tarefa | K2.6 | GPT-5.4 | Claude 4.6 | Gemini 3.1 | K2.5 |
|---|---|---|---|---|---|
| HLE-Full (ferramentas) | 54.0 | 52.1 | 53.0 | 51.4 | 50.2 |
| BrowseComp | 83.2 | 82.7 | 83.7 | 85.9 | 74.9 |
| Terminal-Bench 2.0 | 66.7 | 65.4 | 65.4 | 68.5 | 50.8 |
| SWE-Bench Pro | 58.6 | 57.7 | 53.4 | 54.2 | 50.7 |
- K2.6 vence ou empata 3 dos 4 benchmarks (incluindo GPT-5.4 em HLE-Full e SWE-Bench Pro).
- Gemini 3.1 lidera em Terminal-Bench e BrowseComp.
- K2.6 tem pesos abertos; concorrentes não.
Onde usar o Kimi K2.6
kimi.com (Chat)
A interface web do Kimi é o caminho mais rápido: login, selecione K2.6, acesse chat, modo agente, Agent Swarm, visão e integração com Kimi Code. Veja o guia completo gratuito.
Kimi App
App mobile (iOS/Android) replica a experiência web, inclui entrada por voz e push para tarefas de longa duração.
Kimi Code
Kimi Code é a interface nativa de codificação no terminal. Gerencia sistema de arquivos, commits e testes, com Agent Swarm por trás. Compare com Claude Code ou Cursor Composer 2.
API
API compatível com OpenAI:
Base URL: https://api.moonshot.ai/v1
Model IDs: kimi-k2.6, kimi-k2.6-thinking
Siga o guia completo para API: autenticação, streaming, chamada de ferramentas, visão, vídeo, Agent Swarm.
Pesos abertos no Hugging Face
Pesos completos disponíveis em moonshotai/Kimi-K2.6 (licença MIT modificada). Quantizações (ubergarm GGUF, unsloth) facilitam rodar localmente (GPU H100 recomendada).
Como o K2.6 foi treinado (o que a Moonshot divulgou)
O anúncio oficial não traz a receita completa, mas destaca:
- Estabilidade de longo prazo: executa agentes por 12–13h sem degradação (vs algumas centenas de chamadas no K2.5).
- Confiabilidade na chamada de ferramentas: sucesso de 96,60% (CodeBuddy).
- Treinamento multi-papel: agentes heterogêneos (planejador, codificador, pesquisador, revisor).
- Visão + código integrados: benchmarks de "MathVision com Python" mostram treinamento multimodal nativo.
Para quem faz sentido
Escolha o Kimi K2.6 se você está construindo:
- Agentes de codificação de longa duração: 4.000+ passos, 12h de execução são parte da arquitetura.
- Sistemas multiagentes: Agent Swarm e Claw Groups orquestram 300 agentes sem programação extra.
- Produção com pesos abertos: ideal para ajuste fino, compliance ou controle regulatório.
- API de alto throughput: custo de inferência menor que modelos fechados; compatível com código existente.
Prefira modelos fechados se precisar de:
- Alinhamento de segurança rigoroso: Claude 4.6 ainda lidera em recusas/conformidade.
- Latência de chat sub-segundo: Agent Swarm leva minutos, não milissegundos.
- SLAs fixos de fornecedor: contratos de suporte podem ser decisivos em setores regulados.
Como testar o Kimi K2.6 em 5 minutos com Apidog
Após obter a chave de API Moonshot/Kimi, siga:
- Crie ambiente:
BASE_URL = https://api.moonshot.ai/v1
KIMI_API_KEY = sk-...
- Nova requisição:
POST {{BASE_URL}}/chat/completions
- Headers:
Authorization: Bearer {{KIMI_API_KEY}}
Content-Type: application/json
- Corpo JSON:
{
"model": "kimi-k2.6",
"messages": [{"role": "user", "content": "Summarize the Kimi K2.6 announcement."}],
"stream": true
}
- Clique em Enviar. Tokens são transmitidos em tempo real.
O Apidog gerencia histórico, reproduz sequências de chamadas (útil para debugging de agentes), valida schemas (compatível com OpenAI), compartilhamento em equipe (chaves por usuário) e integração com VS Code. Veja também o guia para sair do Postman.
Perguntas Frequentes
O Kimi K2.6 é open source?
Pesos open source (MIT modificada): moonshotai/Kimi-K2.6. Dados/código de treinamento não são públicos ("open-weight").
Como o K2.6 se compara ao K2.5?
Saltos expressivos em todos os benchmarks (tabela oficial): +3,8 (HLE-Full), +8,3 (BrowseComp), +15,9 (Terminal-Bench), +7,9 (SWE-Bench Pro), +20,5 (Claw Eval), triplo em Agent Swarm.
Qual a janela de contexto?
262.144 tokens; geração máxima de 98.304 tokens.
Posso rodar localmente?
Sim, com hardware robusto (GPU classe H100 para MoE completo). Quantizações (4/3 bits) permitem uso em hardware menor (com alguma perda). Veja o guia de acesso gratuito.
Suporta chamadas de ferramentas?
Sim. API segue formato OpenAI, Agent Swarm gerencia chamadas paralelas.
Diferença entre K2.6 e K2.6 Thinking?
K2.6: resposta rápida; K2.6 Thinking: expõe cadeia de pensamento. Use "Thinking" para provas, debugging ou planejamento.
Como acessar gratuitamente?
Chat web em kimi.com tem cota diária. Cloudflare Workers AI tem tier gratuito. Auto-hospedagem via Hugging Face = custo zero por token (exige hardware). Detalhes no guia de acesso gratuito.
Comparação com outros modelos open-weight?
Versus Qwen 3.6 e Qwen3.5-Omni: K2.6 lidera em codificação e agentes; Qwen destaca-se em multilinguismo/modelos menores. Versus DeepSeek V3.x, K2.6 é superior em orquestração de agentes.
Resumo
Kimi K2.6 é o modelo open-weight mais avançado para automação agêntica e execução prolongada: 300 agentes, 4.000 passos, contexto de 262K, pesos abertos. O anúncio oficial e benchmarks públicos confirmam o novo patamar.
Se você precisa de um modelo para agentes de codificação, assistentes de pesquisa de longa duração ou sistemas multiagentes, o K2.6 deve estar no seu shortlist. Obtenha uma chave em platform.kimi.ai, abra o Apidog e envie sua primeira requisição. Para próximos passos, veja os guias de API e acesso gratuito.

Top comments (0)