Emre Demir

Posted on Apr 21 • Originally published at apidog.com

Kimi K2.6: Moonshot AI's 1T Parameter Open Model erklärt

Moonshot AI hat Kimi K2.6 veröffentlicht – ein neues Open-Source-Modell, das auf Codierung, Langzeit-Ausführung und Agenten-Schwärme ausgelegt ist. Die offiziellen Benchmarks zeigen: 80,2 % auf SWE-Bench Verified, 96,4 % auf AIME 2026, 90,5 % auf GPQA-Diamond und 73,1 % auf OSWorld-Verified. Diese Zahlen sind direkt der offiziellen Kimi-Ankündigung entnommen.

Teste Apidog noch heute

In diesem Beitrag findest du einen kompakten Leitfaden zu Kimi K2.6, der Agent Swarm-Architektur, Benchmarks im Vergleich zu GPT-5.4 und Claude 4.6 sowie praktische Implementierungsmöglichkeiten.

💡Möchtest du Kimi K2.6 mit eigenen API-Workloads testen? Apidog bringt einen OpenAI-kompatiblen Moonshot/Kimi-Endpunkt in eine visuelle Umgebung, importiert mit wenigen Klicks, speichert dein Bearer-Token und ermöglicht gestreamte Chats, Tool-Calls und Vision-Anfragen mit vollständigem Verlauf. Lade Apidog kostenlos herunter.

TL;DR

Veröffentlichung: Moonshot AI, April 2026, Open Source (Gewichte auf Hugging Face, API auf platform.kimi.ai)
Architektur: 1T-Parameter Mixture-of-Experts, 32B aktive Parameter pro Token, 262.144-Token Kontext (256K)
Max. Ausgabe: Bis zu 98.304 Tokens für Reasoning-Aufgaben
Agent Swarm: Bis zu 300 Sub-Agenten, 4.000+ Schritte pro Aufgabe (3x Kapazität von K2.5)
Benchmarks: SWE-Bench Verified 80,2%, Terminal-Bench 2.0 66,7%, AIME 2026 96,4%, HLE-Full (Tools) 54,0%, OSWorld-Verified 73,1%
Interfaces: kimi.com Chat, Kimi App, Kimi Code, API, offene Gewichte

Kimi K2.6 in einem Absatz

Kimi K2.6 ist Moonshot AIs Open-Source-Modell der nächsten Generation für Code, Langzeitprozesse und Agenten-Schwärme. Es läuft auf kimi.com, Kimi App, Kimi Code und via API. Erstmals bietet die K-Line-Serie mit Agent Swarm bis zu 300 Sub-Agenten und 4.000+ Schritte – autonomes Arbeiten über Stunden oder Tage. Die Integration orientiert sich an bekannten API-First-Workflows, wie du sie von Qwen 3.6 oder Qwen3.5-Omni kennst, aber mit Fokus auf Agenten.

Moonshot hat eine vollständige Benchmark-Tabelle in der Kimi K2.6-Ankündigung veröffentlicht. Die wichtigsten Werte:

Codierung

Benchmark	Kimi K2.6
SWE-Bench Verified	80,2%
SWE-Bench Multilingual	76,7%
SWE-Bench Pro	58,6%
Terminal-Bench 2.0	66,7%

Mit 80,2 % auf SWE-Bench Verified erreicht oder übertrifft Kimi K2.6 Claude 4.6 – und das mit offenen Gewichten. Terminal-Bench 2.0 mit 66,7 % bedeutet +15,9 Punkte gegenüber K2.5, was die Shell- und Dateimanipulation stark verbessert.

Agenten- und Werkzeugnutzung

Benchmark	Kimi K2.6
HLE-Full (mit Tools)	54,0%
BrowseComp	83,2% (86,3% mit Agent Swarm)
DeepSearchQA (F1)	92,5%
Toolathlon	50,0%
Claw Eval (pass@3)	80,9%
OSWorld-Verified	73,1%

HLE-Full mit 54,0 % platziert K2.6 vor GPT-5.4 (52,1 %) und Claude 4.6 (53,0 %). OSWorld-Verified mit 73,1 % zeigt, dass K2.6 echte Desktop-Umgebungen für OS-Aufgaben steuern kann, ähnlich wie Claude Code computer use.

Argumentation und Wissen

Benchmark	Kimi K2.6
AIME 2026	96,4%
HMMT 2026 (Feb)	92,7%
GPQA-Diamond	90,5%
IMO-AnswerBench	86,0%

AIME 2026 mit 96,4 % – nahezu perfekte Leistung bei einem komplexen Mathe-Benchmark.

Vision

Benchmark	Kimi K2.6
MathVision (mit Python)	93,2%
V* (mit Python)	96,9%
MMMU-Pro	79,4%
CharXiv (RQ, mit Python)	86,7%

Die „mit Python“-Ergebnisse zeigen, dass Vision und Toolnutzung eng integriert sind.

Agent Swarm: Der strukturelle Sprung

Agent Swarm ist das Kernfeature in K2.6: Bis zu 300 Sub-Agenten mit 4.000+ koordinierten Schritten (früher 100/1.500 bei K2.5).

Drei Muster sind entscheidend:

Heterogene Aufgabenzerlegung: Nicht 300 Klone, sondern spezialisierte Sub-Agenten für Code, Recherche, Vision, Planung.
Kompositionale Intelligenz: Sub-Agenten generieren komplexe Outputs (z.B. Docs, Slides, Tabellen) in einer Session, ähnlich wie Hermes-Agentenarchitekturen.
Dokument-zu-Fähigkeit-Konvertierung: Spezifikationen werden zu Fähigkeiten, die wie domänenspezifisches Wissen wirken.

Praxisbeispiele (aus der Kimi-Ankündigung)

Qwen3.5-0.8B Inferenzoptimierung auf Mac: 12 Stunden, 4.000+ Tool-Calls, 14 Iterationen, Durchsatz von 15 auf 193 Tokens/s (+20 % vs. LM Studio).
Finanzmaschine mit Exchange-Kern abstimmen: 13 Stunden, 1.000+ Tool-Calls, 4.000+ Codezeilen geändert, Durchsatzgewinn 185 %.
Autonomer 5-Tage-Infrastrukturlauf: Multithreaded Incident Response ohne menschliche Intervention.

Das Skalierungsgesetz hier sind nicht die Modellparameter, sondern Agenten-Stunden.

Architektur-Details

Mixture of Experts

K2.6 ist ein 1T-Parameter MoE-Modell mit 32B aktiven Parametern pro Token. So erreichst du Top-Leistung mit Inferenzkosten nahe eines dichten 32B-Modells. Das Routing ist entscheidend – siehe auch GLM-5V Turbo API.

Langer Kontext: 262.144 Tokens

Kontextfenster: 262.144 Tokens. Maximale Generation für Reasoning-Aufgaben: 98.304 Tokens. Ausreichend für:

Komplette mittelgroße Codebasis plus Agenten-Trajektorie
Vollständige Rechts-/Forschungsdokumente mit Multi-Turn Q&A
Tool-Call-Listen von mehreren Tagen

Moonshot hat Teile des Attention Stacks für lange Kontexte optimiert.

Standard-Sampling

Empfohlene Parameter: Temperatur 1.0, Top-P 1.0. Nicht wie bei OpenAI/Anthropic-Defaults auf niedrige Temperaturen setzen – Kimi K2.6 wurde auf hohe Temperaturen abgestimmt.

Claw Groups: Multi-Agenten-Schicht

Claw Groups (Forschungsvorschau): Agenten und Menschen arbeiten über Endgeräte hinweg an Aufgaben. Features:

Dynamische Aufgabenverteilung via spezialisierte Toolkits
Fehlererkennung & automatische Neuverteilung
Geräteübergreifende Nutzung
Mensch-in-der-Schleife-Kontrollpunkte

Claw Eval-Score (80,9 %, pass@3) misst die Zuverlässigkeit dieser Schicht. Vergleichbar mit Paperclip’s AI Agenten-Unternehmen.

Design-orientierte Entwicklung & proaktive Agenten

K2.6 kann:

Full-Stack-Anwendungen (inkl. Auth, Datenbanken, Transaktionen) generieren
Bild- und Video-Tools in Agenten-Trajektorien einbinden
Scroll-getriggerte Animationen, Interaktionen, produktionsreife UIs erstellen

Proaktive Agenten laufen 24/7 in OpenClaw/Hermes, orchestrieren mehrere Apps – wie bei Google Agent Smith oder eigenem Claude Code.

Kimi K2.6 vs. geschlossene Spitzenmodelle

Siehe die offizielle Vergleichstabelle:

Aufgabe	K2.6	GPT-5.4	Claude 4.6	Gemini 3.1	K2.5
HLE-Full (Tools)	54,0	52,1	53,0	51,4	50,2
BrowseComp	83,2	82,7	83,7	85,9	74,9
Terminal-Bench 2.0	66,7	65,4	65,4	68,5	50,8
SWE-Bench Pro	58,6	57,7	53,4	54,2	50,7

Wichtig:

K2.6 führt bei 3 von 4 Tasks, inkl. Vorsprung bei HLE-Full und SWE-Bench Pro.
Gemini 3.1 ist bei reinen Terminal-/Browse-Aufgaben vorn.
Nur K2.6 bietet offene Gewichte.

Wo du Kimi K2.6 findest

kimi.com (Chat)

Schnellstart für K2.6: Registrieren, Modell wählen, Chat, Agentenmodus, Vision, Kimi Code. Siehe Leitfaden zur kostenlosen Nutzung.

Kimi App

Mobile Version (iOS/Android) – Spracheingabe, Push-Benachrichtigungen für lang laufende Agentenaufgaben.

Kimi Code

Kimi Code ist das Terminal-native Coding-Interface. K2.6 steuert Filesystem, Commits, Tests inkl. Agent Swarm. Vergleichbar mit Claude Code Workflows und Cursor Composer 2.

API

OpenAI-kompatibel, Basis-URL: https://api.moonshot.ai/v1, Models: kimi-k2.6, kimi-k2.6-thinking. Details zur Authentifizierung, Streaming, Tool-Calls usw. im API-Leitfaden.

Offene Gewichte auf Hugging Face

Vollständige K2.6-Gewichte: moonshotai/Kimi-K2.6. Community-Quantisierungen (GGUF, unsloth) ermöglichen Betrieb auf eigenen H100-Systemen.

Trainingsansatz (laut Moonshot)

Die Kimi K2.6-Ankündigung offenbart folgende Schwerpunkte:

Langzeitstabilität: Training auf 12h+ Agentenläufe (K2.6 >4.000 Tool-Calls, K2.5 <400).
Tool-Call-Zuverlässigkeit: CodeBuddys 96,6 % Erfolgsquote.
Kompositionelles Schwarmtraining: Multi-Agenten-Signale (Planer, Coder, Forscher, Prüfer).
Vision + Code-Kopplung: Multimodales Training, kein nachträglicher Adapter.

Für wen lohnt sich Kimi K2.6?

Wähle Kimi K2.6 wenn du...

Lang laufende Codierungsagenten brauchst (12h+, >4.000 Schritte)
Multi-Agenten-Systeme orchestrieren willst (bis 300 Agenten)
Open-Weight-Produktion oder Modellkontrolle forderst
API-Arbeit mit hohem Durchsatz suchst (MoE-Inferenzkosten, OpenAI-kompatibel)

Bleib bei Closed-Source-Modellen wenn du...

Strikte Sicherheitsausrichtung (z.B. Claude 4.6)
Chat-Latenz <1 Sekunde für Endkunden
Feste SLAs (regulierte Branchen)

So testest du Kimi K2.6 in 5 Minuten mit Apidog

Mit einem Moonshot/Kimi API-Key kannst du Kimi K2.6 sofort via Apidog testen:

Umgebung anlegen: BASE_URL = https://api.moonshot.ai/v1 KIMI_API_KEY = sk-...
Neue POST-Anfrage: POST {{BASE_URL}}/chat/completions
Header setzen: Authorization: Bearer {{KIMI_API_KEY}} Content-Type: application/json
Body (JSON):

{
  "model": "kimi-k2.6",
  "messages": [{"role": "user", "content": "Zusammenfassung der Kimi K2.6 Ankündigung."}],
  "stream": true
}

Senden und gestreamte Ausgabe beobachten.

Apidog unterstützt Anfrageverlauf, Schema-Validierung (OpenAI-Format), Teamfreigabe und VS Code-Integration. Migration von Postman? Siehe API-Testing ohne Postman 2026.

FAQ

Ist Kimi K2.6 Open Source?

Gewichte: Open Source (modifizierte MIT-Lizenz, moonshotai/Kimi-K2.6). Trainingsdaten/-code nicht öffentlich.

Wie schneidet Kimi K2.6 vs. K2.5 ab?

+3,8 Punkte HLE-Full, +8,3 BrowseComp, +15,9 Terminal-Bench, +7,9 SWE-Bench Pro, +20,5 Claw Eval, 3x Agent Swarm-Kapazität.

Wie groß ist das Kontextfenster?

262.144 Tokens, max. Generierung für Reasoning bis 98.304 Tokens.

Kann ich Kimi K2.6 lokal ausführen?

Ja, mit H100-Multi-GPU-Systemen. Quantisierte Builds (4-Bit, 3-Bit) laufen auf kleineren Setups (Qualitätsverlust). Mehr Details im Leitfaden zum kostenlosen Zugriff.

Unterstützt Kimi K2.6 Tool-Calls?

Ja. API folgt OpenAI-Tool-Call-Format. Agent Swarm verarbeitet parallele Tool-Calls nativ.

Unterschied Kimi K2.6 und Kimi K2.6 Thinking?

K2.6: schnelle Agenten-Variante. K2.6 Thinking: zeigt Gedankenkette vor Antwort – für Beweise, Debugging, komplexe Planung.

Wie greife ich kostenlos auf Kimi K2.6 zu?

kimi.com Web-Chat (Tageslimit), Cloudflare Workers AI (gratis), Self-Hosting via Hugging Face (keine Tokenkosten, eigene Hardware). Details: kostenlos nutzen.

Vergleich zu anderen Open-Weight-Modellen?

Kimi K2.6 liegt bei Coding und Agenten-Benchmarks vorne; Qwen stärker bei Mehrsprachigkeit & kleinen Modellen, DeepSeek V3.x unterlegen bei Agenten-Orchestrierung.

Zusammenfassung

Kimi K2.6 ist aktuell das produktionsreifste Open-Weight-Modell für agentenbasierte Codierung und Langzeitaufgaben: 300 Agenten, 4.000+ Schritte, 262K Kontext, offene Gewichte. Die offizielle Ankündigung und Benchmarks stützen den Anspruch, neuer Stand der Technik in Open-Source-Agentenarbeit zu sein.

Für Entwickler von Codierungsagenten, Forschungsassistenten oder Multi-Agenten-Systemen ist Kimi K2.6 ein Pflichtkandidat. API-Key auf platform.kimi.ai, Apidog öffnen, erste Anfrage senden – und dann mit API- und Free-Access-Guides weiterarbeiten.

DEV Community