Moonshot AI hat Kimi K2.6 veröffentlicht – ein neues Open-Source-Modell, das auf Codierung, Langzeit-Ausführung und Agenten-Schwärme ausgelegt ist. Die offiziellen Benchmarks zeigen: 80,2 % auf SWE-Bench Verified, 96,4 % auf AIME 2026, 90,5 % auf GPQA-Diamond und 73,1 % auf OSWorld-Verified. Diese Zahlen sind direkt der offiziellen Kimi-Ankündigung entnommen.
In diesem Beitrag findest du einen kompakten Leitfaden zu Kimi K2.6, der Agent Swarm-Architektur, Benchmarks im Vergleich zu GPT-5.4 und Claude 4.6 sowie praktische Implementierungsmöglichkeiten.
💡Möchtest du Kimi K2.6 mit eigenen API-Workloads testen? Apidog bringt einen OpenAI-kompatiblen Moonshot/Kimi-Endpunkt in eine visuelle Umgebung, importiert mit wenigen Klicks, speichert dein Bearer-Token und ermöglicht gestreamte Chats, Tool-Calls und Vision-Anfragen mit vollständigem Verlauf. Lade Apidog kostenlos herunter.
TL;DR
- Veröffentlichung: Moonshot AI, April 2026, Open Source (Gewichte auf Hugging Face, API auf platform.kimi.ai)
- Architektur: 1T-Parameter Mixture-of-Experts, 32B aktive Parameter pro Token, 262.144-Token Kontext (256K)
- Max. Ausgabe: Bis zu 98.304 Tokens für Reasoning-Aufgaben
- Agent Swarm: Bis zu 300 Sub-Agenten, 4.000+ Schritte pro Aufgabe (3x Kapazität von K2.5)
- Benchmarks: SWE-Bench Verified 80,2%, Terminal-Bench 2.0 66,7%, AIME 2026 96,4%, HLE-Full (Tools) 54,0%, OSWorld-Verified 73,1%
- Interfaces: kimi.com Chat, Kimi App, Kimi Code, API, offene Gewichte
Kimi K2.6 in einem Absatz
Kimi K2.6 ist Moonshot AIs Open-Source-Modell der nächsten Generation für Code, Langzeitprozesse und Agenten-Schwärme. Es läuft auf kimi.com, Kimi App, Kimi Code und via API. Erstmals bietet die K-Line-Serie mit Agent Swarm bis zu 300 Sub-Agenten und 4.000+ Schritte – autonomes Arbeiten über Stunden oder Tage. Die Integration orientiert sich an bekannten API-First-Workflows, wie du sie von Qwen 3.6 oder Qwen3.5-Omni kennst, aber mit Fokus auf Agenten.
Moonshot hat eine vollständige Benchmark-Tabelle in der Kimi K2.6-Ankündigung veröffentlicht. Die wichtigsten Werte:
Codierung
| Benchmark | Kimi K2.6 |
|---|---|
| SWE-Bench Verified | 80,2% |
| SWE-Bench Multilingual | 76,7% |
| SWE-Bench Pro | 58,6% |
| Terminal-Bench 2.0 | 66,7% |
Mit 80,2 % auf SWE-Bench Verified erreicht oder übertrifft Kimi K2.6 Claude 4.6 – und das mit offenen Gewichten. Terminal-Bench 2.0 mit 66,7 % bedeutet +15,9 Punkte gegenüber K2.5, was die Shell- und Dateimanipulation stark verbessert.
Agenten- und Werkzeugnutzung
| Benchmark | Kimi K2.6 |
|---|---|
| HLE-Full (mit Tools) | 54,0% |
| BrowseComp | 83,2% (86,3% mit Agent Swarm) |
| DeepSearchQA (F1) | 92,5% |
| Toolathlon | 50,0% |
| Claw Eval (pass@3) | 80,9% |
| OSWorld-Verified | 73,1% |
HLE-Full mit 54,0 % platziert K2.6 vor GPT-5.4 (52,1 %) und Claude 4.6 (53,0 %). OSWorld-Verified mit 73,1 % zeigt, dass K2.6 echte Desktop-Umgebungen für OS-Aufgaben steuern kann, ähnlich wie Claude Code computer use.
Argumentation und Wissen
| Benchmark | Kimi K2.6 |
|---|---|
| AIME 2026 | 96,4% |
| HMMT 2026 (Feb) | 92,7% |
| GPQA-Diamond | 90,5% |
| IMO-AnswerBench | 86,0% |
AIME 2026 mit 96,4 % – nahezu perfekte Leistung bei einem komplexen Mathe-Benchmark.
Vision
| Benchmark | Kimi K2.6 |
|---|---|
| MathVision (mit Python) | 93,2% |
| V* (mit Python) | 96,9% |
| MMMU-Pro | 79,4% |
| CharXiv (RQ, mit Python) | 86,7% |
Die „mit Python“-Ergebnisse zeigen, dass Vision und Toolnutzung eng integriert sind.
Agent Swarm: Der strukturelle Sprung
Agent Swarm ist das Kernfeature in K2.6: Bis zu 300 Sub-Agenten mit 4.000+ koordinierten Schritten (früher 100/1.500 bei K2.5).
Drei Muster sind entscheidend:
- Heterogene Aufgabenzerlegung: Nicht 300 Klone, sondern spezialisierte Sub-Agenten für Code, Recherche, Vision, Planung.
- Kompositionale Intelligenz: Sub-Agenten generieren komplexe Outputs (z.B. Docs, Slides, Tabellen) in einer Session, ähnlich wie Hermes-Agentenarchitekturen.
- Dokument-zu-Fähigkeit-Konvertierung: Spezifikationen werden zu Fähigkeiten, die wie domänenspezifisches Wissen wirken.
Praxisbeispiele (aus der Kimi-Ankündigung)
- Qwen3.5-0.8B Inferenzoptimierung auf Mac: 12 Stunden, 4.000+ Tool-Calls, 14 Iterationen, Durchsatz von 15 auf 193 Tokens/s (+20 % vs. LM Studio).
- Finanzmaschine mit Exchange-Kern abstimmen: 13 Stunden, 1.000+ Tool-Calls, 4.000+ Codezeilen geändert, Durchsatzgewinn 185 %.
- Autonomer 5-Tage-Infrastrukturlauf: Multithreaded Incident Response ohne menschliche Intervention.
Das Skalierungsgesetz hier sind nicht die Modellparameter, sondern Agenten-Stunden.
Architektur-Details
Mixture of Experts
K2.6 ist ein 1T-Parameter MoE-Modell mit 32B aktiven Parametern pro Token. So erreichst du Top-Leistung mit Inferenzkosten nahe eines dichten 32B-Modells. Das Routing ist entscheidend – siehe auch GLM-5V Turbo API.
Langer Kontext: 262.144 Tokens
Kontextfenster: 262.144 Tokens. Maximale Generation für Reasoning-Aufgaben: 98.304 Tokens. Ausreichend für:
- Komplette mittelgroße Codebasis plus Agenten-Trajektorie
- Vollständige Rechts-/Forschungsdokumente mit Multi-Turn Q&A
- Tool-Call-Listen von mehreren Tagen
Moonshot hat Teile des Attention Stacks für lange Kontexte optimiert.
Standard-Sampling
Empfohlene Parameter: Temperatur 1.0, Top-P 1.0. Nicht wie bei OpenAI/Anthropic-Defaults auf niedrige Temperaturen setzen – Kimi K2.6 wurde auf hohe Temperaturen abgestimmt.
Claw Groups: Multi-Agenten-Schicht
Claw Groups (Forschungsvorschau): Agenten und Menschen arbeiten über Endgeräte hinweg an Aufgaben. Features:
- Dynamische Aufgabenverteilung via spezialisierte Toolkits
- Fehlererkennung & automatische Neuverteilung
- Geräteübergreifende Nutzung
- Mensch-in-der-Schleife-Kontrollpunkte
Claw Eval-Score (80,9 %, pass@3) misst die Zuverlässigkeit dieser Schicht. Vergleichbar mit Paperclip’s AI Agenten-Unternehmen.
Design-orientierte Entwicklung & proaktive Agenten
K2.6 kann:
- Full-Stack-Anwendungen (inkl. Auth, Datenbanken, Transaktionen) generieren
- Bild- und Video-Tools in Agenten-Trajektorien einbinden
- Scroll-getriggerte Animationen, Interaktionen, produktionsreife UIs erstellen
Proaktive Agenten laufen 24/7 in OpenClaw/Hermes, orchestrieren mehrere Apps – wie bei Google Agent Smith oder eigenem Claude Code.
Kimi K2.6 vs. geschlossene Spitzenmodelle
Siehe die offizielle Vergleichstabelle:
| Aufgabe | K2.6 | GPT-5.4 | Claude 4.6 | Gemini 3.1 | K2.5 |
|---|---|---|---|---|---|
| HLE-Full (Tools) | 54,0 | 52,1 | 53,0 | 51,4 | 50,2 |
| BrowseComp | 83,2 | 82,7 | 83,7 | 85,9 | 74,9 |
| Terminal-Bench 2.0 | 66,7 | 65,4 | 65,4 | 68,5 | 50,8 |
| SWE-Bench Pro | 58,6 | 57,7 | 53,4 | 54,2 | 50,7 |
Wichtig:
- K2.6 führt bei 3 von 4 Tasks, inkl. Vorsprung bei HLE-Full und SWE-Bench Pro.
- Gemini 3.1 ist bei reinen Terminal-/Browse-Aufgaben vorn.
- Nur K2.6 bietet offene Gewichte.
Wo du Kimi K2.6 findest
kimi.com (Chat)
Schnellstart für K2.6: Registrieren, Modell wählen, Chat, Agentenmodus, Vision, Kimi Code. Siehe Leitfaden zur kostenlosen Nutzung.
Kimi App
Mobile Version (iOS/Android) – Spracheingabe, Push-Benachrichtigungen für lang laufende Agentenaufgaben.
Kimi Code
Kimi Code ist das Terminal-native Coding-Interface. K2.6 steuert Filesystem, Commits, Tests inkl. Agent Swarm. Vergleichbar mit Claude Code Workflows und Cursor Composer 2.
API
OpenAI-kompatibel, Basis-URL: https://api.moonshot.ai/v1, Models: kimi-k2.6, kimi-k2.6-thinking. Details zur Authentifizierung, Streaming, Tool-Calls usw. im API-Leitfaden.
Offene Gewichte auf Hugging Face
Vollständige K2.6-Gewichte: moonshotai/Kimi-K2.6. Community-Quantisierungen (GGUF, unsloth) ermöglichen Betrieb auf eigenen H100-Systemen.
Trainingsansatz (laut Moonshot)
Die Kimi K2.6-Ankündigung offenbart folgende Schwerpunkte:
- Langzeitstabilität: Training auf 12h+ Agentenläufe (K2.6 >4.000 Tool-Calls, K2.5 <400).
- Tool-Call-Zuverlässigkeit: CodeBuddys 96,6 % Erfolgsquote.
- Kompositionelles Schwarmtraining: Multi-Agenten-Signale (Planer, Coder, Forscher, Prüfer).
- Vision + Code-Kopplung: Multimodales Training, kein nachträglicher Adapter.
Für wen lohnt sich Kimi K2.6?
Wähle Kimi K2.6 wenn du...
- Lang laufende Codierungsagenten brauchst (12h+, >4.000 Schritte)
- Multi-Agenten-Systeme orchestrieren willst (bis 300 Agenten)
- Open-Weight-Produktion oder Modellkontrolle forderst
- API-Arbeit mit hohem Durchsatz suchst (MoE-Inferenzkosten, OpenAI-kompatibel)
Bleib bei Closed-Source-Modellen wenn du...
- Strikte Sicherheitsausrichtung (z.B. Claude 4.6)
- Chat-Latenz <1 Sekunde für Endkunden
- Feste SLAs (regulierte Branchen)
So testest du Kimi K2.6 in 5 Minuten mit Apidog
Mit einem Moonshot/Kimi API-Key kannst du Kimi K2.6 sofort via Apidog testen:
- Umgebung anlegen:
BASE_URL = https://api.moonshot.ai/v1KIMI_API_KEY = sk-... - Neue POST-Anfrage:
POST {{BASE_URL}}/chat/completions - Header setzen:
Authorization: Bearer {{KIMI_API_KEY}}Content-Type: application/json - Body (JSON):
{
"model": "kimi-k2.6",
"messages": [{"role": "user", "content": "Zusammenfassung der Kimi K2.6 Ankündigung."}],
"stream": true
}
- Senden und gestreamte Ausgabe beobachten.
Apidog unterstützt Anfrageverlauf, Schema-Validierung (OpenAI-Format), Teamfreigabe und VS Code-Integration. Migration von Postman? Siehe API-Testing ohne Postman 2026.
FAQ
Ist Kimi K2.6 Open Source?
Gewichte: Open Source (modifizierte MIT-Lizenz, moonshotai/Kimi-K2.6). Trainingsdaten/-code nicht öffentlich.
Wie schneidet Kimi K2.6 vs. K2.5 ab?
+3,8 Punkte HLE-Full, +8,3 BrowseComp, +15,9 Terminal-Bench, +7,9 SWE-Bench Pro, +20,5 Claw Eval, 3x Agent Swarm-Kapazität.
Wie groß ist das Kontextfenster?
262.144 Tokens, max. Generierung für Reasoning bis 98.304 Tokens.
Kann ich Kimi K2.6 lokal ausführen?
Ja, mit H100-Multi-GPU-Systemen. Quantisierte Builds (4-Bit, 3-Bit) laufen auf kleineren Setups (Qualitätsverlust). Mehr Details im Leitfaden zum kostenlosen Zugriff.
Unterstützt Kimi K2.6 Tool-Calls?
Ja. API folgt OpenAI-Tool-Call-Format. Agent Swarm verarbeitet parallele Tool-Calls nativ.
Unterschied Kimi K2.6 und Kimi K2.6 Thinking?
K2.6: schnelle Agenten-Variante. K2.6 Thinking: zeigt Gedankenkette vor Antwort – für Beweise, Debugging, komplexe Planung.
Wie greife ich kostenlos auf Kimi K2.6 zu?
kimi.com Web-Chat (Tageslimit), Cloudflare Workers AI (gratis), Self-Hosting via Hugging Face (keine Tokenkosten, eigene Hardware). Details: kostenlos nutzen.
Vergleich zu anderen Open-Weight-Modellen?
Kimi K2.6 liegt bei Coding und Agenten-Benchmarks vorne; Qwen stärker bei Mehrsprachigkeit & kleinen Modellen, DeepSeek V3.x unterlegen bei Agenten-Orchestrierung.
Zusammenfassung
Kimi K2.6 ist aktuell das produktionsreifste Open-Weight-Modell für agentenbasierte Codierung und Langzeitaufgaben: 300 Agenten, 4.000+ Schritte, 262K Kontext, offene Gewichte. Die offizielle Ankündigung und Benchmarks stützen den Anspruch, neuer Stand der Technik in Open-Source-Agentenarbeit zu sein.
Für Entwickler von Codierungsagenten, Forschungsassistenten oder Multi-Agenten-Systemen ist Kimi K2.6 ein Pflichtkandidat. API-Key auf platform.kimi.ai, Apidog öffnen, erste Anfrage senden – und dann mit API- und Free-Access-Guides weiterarbeiten.

Top comments (0)