lu1tr0n

Posted on Apr 30 • Originally published at elsolitario.org

Kimi K2.6: el modelo abierto chino que ya lidera SWE-Bench Pro frente a la frontera cerrada

#programming #technology

El 20 de abril de 2026, Moonshot AI liberó Kimi K2.6, un modelo Mixture-of-Experts de un trillón de pesos totales con 32 mil millones activados por token que se publica con pesos abiertos en HuggingFace. En las dos semanas que llevan desde el release, los benchmarks oficiales muestran a K2.6 liderando SWE-Bench Pro, DeepSearchQA, HLE con herramientas y BrowseComp en modo Agent Swarm sobre GPT-5.4, Claude Opus 4.6 y Gemini 3.1 Pro, con cifras que en SWE-Bench Verified quedan a menos de un punto del estado del arte cerrado.

Es la primera vez que un modelo distribuido bajo licencia abierta compite cabeza a cabeza con la frontera comercial en evaluaciones de código y agentes, y lo hace al mismo tiempo que pone los 595 GB de pesos en block-fp8 a disposición de cualquiera para descargar.

Arquitectura: 384 expertos, MLA, 256K de contexto

La hoja técnica del model card oficial deja todo a la vista:

Especificación
Valor

Parámetros totales
1 T

Parámetros activados por token
32 B

Layers
61 (incluye 1 layer dense)

Expertos MoE
384 (8 seleccionados por token, 1 compartido)

Attention heads
64

Hidden dim (atención)
7 168

Hidden dim (MoE por experto)
2 048

Mecanismo de atención
MLA

Activación
SwiGLU

Vocabulario
160 K tokens

Contexto
256 K

Vision encoder
MoonViT (400 M parámetros)

La elección de MLA (Multi-head Latent Attention) y un router con top-8 of 384 hace que el cómputo activo por token sea de 32 B en lugar de los 1 T totales: el modelo entrega calidad de un trillonario sin pagar el precio en latencia o memoria de uno denso. La pre-entrenamiento corrió, según el tech report del K2 original, sobre 15,5 billones de tokens con el optimizador Muon y «cero inestabilidad de entrenamiento» reportada — un detalle no menor en MoEs gigantes donde el route collapse suele forzar reinicios.

Benchmarks oficiales: dónde lidera y dónde no

Las cifras de la propia tabla de Moonshot, comparando con los principales competidores cerrados:

Código

Benchmark
Kimi K2.6
GPT-5.4
Claude Opus 4.6
Gemini 3.1 Pro

SWE-Bench Verified
80.2
—
80.8
80.6

SWE-Bench Pro
58.6
57.7
53.4
54.2

SWE-Bench Multilingual
76.7
—
77.8
76.9

Terminal-Bench 2.0
66.7
65.4
65.4
68.5

LiveCodeBench v6
89.6
—
88.8
91.7

K2.6 lidera SWE-Bench Pro, la versión más reciente y exigente del benchmark de Princeton, y queda dentro de un punto de Opus 4.6 en SWE-Bench Verified. En LiveCodeBench la primera posición la mantiene Gemini 3.1 Pro, pero la diferencia (89.6 vs 91.7) es marginal para uso real.

Agentic y búsqueda

Benchmark
Kimi K2.6
GPT-5.4
Claude Opus 4.6
Gemini 3.1 Pro

HLE-Full (w/ tools)
54.0
52.1
53.0
51.4

DeepSearchQA (F1)
92.5
78.6
91.3
81.9

BrowseComp
83.2
82.7
83.7
85.9

BrowseComp (Agent Swarm)
86.3
78.4
—
—

OSWorld-Verified
73.1
75.0
72.7
—

Acá K2.6 brilla con luz propia: DeepSearchQA con 14 puntos de diferencia sobre GPT-5.4 y el modo Agent Swarm sumando casi 8 puntos extra a BrowseComp. La narrativa «open source es agentic-ready» deja de ser ambición.

Razonamiento puro y multimodal

Benchmark
Kimi K2.6
GPT-5.4
Claude Opus 4.6
Gemini 3.1 Pro

AIME 2026
96.4
99.2
96.7
98.3

HMMT 2026
92.7
97.7
96.2
94.7

GPQA-Diamond
90.5
92.8
91.3
94.3

MMMU-Pro
79.4
81.2
73.9
83.0

En matemática competitiva pura (AIME, HMMT) y razonamiento científico (GPQA), GPT-5.4 todavía manda; K2.6 queda 2-5 puntos por debajo. En visión multimodal Gemini 3.1 Pro lidera. La lectura honesta: K2.6 es par o superior en código, agentes y búsqueda larga; ligeramente por detrás en olimpiadas matemáticas y vision general.

Agent Swarm: 300 sub-agentes en paralelo

La feature distintiva del release es el Agent Swarm Mode: K2.6 puede orquestar hasta 300 sub-agentes ejecutando 4 000 pasos coordinados sobre una misma tarea. El modelo card lo describe como capacidad para «long-horizon coding» robusto en Rust, Go y Python, abarcando frontend, DevOps y optimización de performance dentro de la misma sesión sin colapsar el contexto.

La diferencia entre BrowseComp single (83.2) y BrowseComp con Agent Swarm (86.3) es la métrica más concreta de cuánto rinde la orquestación: +3 puntos directos vs lo que da el modelo plano. No es marketing — está en la tabla oficial.

Cómo correrlo en serio

Tamaños y memoria

Los pesos completos en el repo de HuggingFace pesan 595 GB en formato block-fp8. Eso descarta correrlo nativo en una sola GPU: lo natural es desplegar con vLLM, SGLang o KTransformers en un nodo multi-GPU con NVLink, o usar versiones cuantizadas:

unsloth/Kimi-K2.6-GGUF: cuantizaciones dinámicas Unsloth 2.0, optimizadas para preservar calidad.
ubergarm/Kimi-K2.6-GGUF: incluye el «full size» con perplejidad PPL 1.84 sobre 568 chunks (n_ctx=512).

Los claims que circulan en X de «corre en 13 GB de RAM» se refieren a quants Q1/Q2 muy agresivos que degradan la calidad considerablemente. Para uso real esperá Q4_K_M o superior, lo que en la práctica significa 80-150 GB de memoria total (system + GPU) según la cuantización.

Despliegue

El stack recomendado por Moonshot:


bash
# Inferencia con vLLM
pip install "vllm>=0.7.0" "transformers>=4.57.1,base_url y la API key. Hay además proveedores third-party (GMI Cloud, OpenRouter) que ya hostean el modelo con auditoría vía la herramienta [Kimi Vendor Verifier](https://elsolitario.org/2026/04/20/kimi-vendor-verifier-moonshot-auditor-k26-2026/) que Moonshot también liberó open source para detectar degradaciones de inferencia entre proveedores.

## El asterisco de la licencia: Modified MIT

K2.6 se distribuye bajo **Modified MIT License**, no MIT estándar. Los términos modificados están en el [archivo LICENSE](https://huggingface.co/moonshotai/Kimi-K2.6/blob/main/LICENSE) del repositorio y son consistentes con la postura de Moonshot en versiones previas: la mayoría de uso comercial sin fricción, pero **clausulas de attribution** y restricciones explícitas para uso en aplicaciones a gran escala con condiciones de revenue thresholds (similar a la «LTX-Video Open Weights License» o las cláusulas de Llama). En la práctica, para developers individuales, startups, investigación académica y la mayoría de uso productivo, las cláusulas no son una traba — pero **si pensás integrar K2.6 en un producto SaaS de scale**, leé el LICENSE antes de firmar nada.

Esto sigue siendo «open weight», no «open source OSI puro». Distinción importante para quien las palabras importan.

## Por qué importa para el ecosistema

Tres lecturas que dejan estos benchmarks:

- 

**El gap closed-vs-open en código se cerró**. Hace dos años GPT-4 dominaba SWE-Bench por 30+ puntos sobre cualquier abierto. Hoy K2.6 lidera SWE-Bench Pro y queda dentro de 1 punto de Opus en Verified. Para un equipo de ingeniería que use Kimi como backend de su agente coder, la diferencia con Claude desaparece para la mayoría de las tareas.

- 

**Los modos agenticos benefician al open**. La brecha de 14 puntos en DeepSearchQA frente a GPT-5.4 sugiere que cuando dejás que el modelo orqueste herramientas, búsquedas y sub-agentes — patrón que ya domina los workflows reales — K2.6 puede superar a la frontera cerrada. Para constructores de agentes, esto cambia la ecuación de costo.

- 

**El control sobre el stack vuelve a ser viable**. Self-hostear un trillonario sigue siendo caro, pero con el API de Moonshot a fracción del costo de Claude/GPT, una empresa LATAM puede mantener su lógica agentic en Spanish, integrar con WhatsApp Business o herramientas locales, y no estar pagando $20/M tokens cuando una llamada equivalente cuesta una cuarta parte. La arquitectura MoE además abre la puerta a quantizaciones agresivas que reducen el costo per token aún más.

Para programadores en LATAM que dependen de modelos frontier para coding asistido o agentes autónomos, K2.6 es la primera alternativa abierta seria desde DeepSeek V3. Para empresas, es razón concreta para revisar el contrato con Anthropic u OpenAI antes de renovarlo.

El siguiente paso lógico de Moonshot es K2.7 con razonamiento visual mejorado y la versión «thinking» extended. Mientras tanto, K2.6 ya está disponible para descarga y prueba.

## Fuentes

- [Kimi K2.6 — Model Card oficial en HuggingFace](https://huggingface.co/moonshotai/Kimi-K2.6)
- [MoonshotAI/Kimi-K2 — Repositorio GitHub](https://github.com/MoonshotAI/Kimi-K2)
- [Kimi K2 Tech Report (arXiv:2507.20534)](https://arxiv.org/abs/2507.20534)
- [unsloth/Kimi-K2.6-GGUF — Cuantizaciones dinámicas](https://huggingface.co/unsloth/Kimi-K2.6-GGUF)
- [ubergarm/Kimi-K2.6-GGUF — Full size GGUF](https://huggingface.co/ubergarm/Kimi-K2.6-GGUF)
- [Kimi K2.6 en llm-stats.com — pricing y benchmarks](https://llm-stats.com/models/kimi-k2.6)
- [Awesome Agents — Kimi K2.6 Open Weights, 300 Agents, Top Coding Score](https://awesomeagents.ai/news/kimi-k2-6-agent-swarm-open-weight/)
- [OfficeChai — Moonshot AI Releases Kimi K2.6, Beats Top US Models](https://officechai.com/ai/kimi-k2-6-benchmarks/)

DEV Community

Kimi K2.6: el modelo abierto chino que ya lidera SWE-Bench Pro frente a la frontera cerrada

Arquitectura: 384 expertos, MLA, 256K de contexto

Benchmarks oficiales: dónde lidera y dónde no

Código

Agentic y búsqueda

Razonamiento puro y multimodal

Agent Swarm: 300 sub-agentes en paralelo

Cómo correrlo en serio

Tamaños y memoria

Despliegue

Top comments (0)