Emre Demir

Posted on Jun 1 • Originally published at apidog.com

MiniMax M3 API: Nutzung & Anleitung

MiniMax M3 ist ein Reasoning- und Coding-Modell mit einem Kontextfenster von bis zu 1.000.000 Tokens. Praktisch heißt das: Sie können große Repositories, umfangreiche Logs oder lange Designdokumente in einem einzigen Aufruf verarbeiten lassen. Wenn Sie zuerst den Hintergrund zum Modell lesen möchten, starten Sie mit was MiniMax M3 ist.

Teste Apidog noch heute

Dieser Leitfaden zeigt die Implementierung: API-Schlüssel erstellen, erste Requests mit curl, Python und Node senden, Reasoning aktivieren, Long-Context-Kosten beachten und alles vorher in Apidog testen. Wenn Sie mitarbeiten möchten, laden Sie Apidog herunter.

Die offizielle Referenz finden Sie in den MiniMax API-Dokumenten. Lassen Sie sie während der Implementierung geöffnet.

Was Sie benötigen

Ein MiniMax-Konto unter platform.minimax.io.
Einen API-Schlüssel.
Eine aktive Abrechnung: Pay-as-you-go-Guthaben oder ein Abonnement-Token-Plan.
Für SDK-Beispiele:
- Python 3.8+
- Node.js 18+

Für die curl-Beispiele reicht eine Shell.

Schritt 1: API-Schlüssel erstellen

Melden Sie sich unter platform.minimax.io an, öffnen Sie den API-Schlüsselbereich Ihres Kontos und erstellen Sie einen neuen Schlüssel.

MiniMax unterscheidet zwei Arten von Anmeldeinformationen:

Regulärer API-Schlüssel: wird über Pay-as-you-go-Guthaben abgerechnet.
Abonnement-Schlüssel: nutzt das Token-Guthaben Ihres Plans, z. B. Plus, Max oder Ultra. Wenn das Plan-Kontingent aufgebraucht ist, stoppen Aufrufe mit diesem Schlüssel, bis der Plan erneuert wird oder Sie zu einem Pay-as-you-go-Schlüssel wechseln.

Kopieren Sie den Schlüssel direkt nach der Erstellung und speichern Sie ihn sicher. Fügen Sie ihn nicht in den Quellcode ein, sondern verwenden Sie eine Umgebungsvariable:

export MINIMAX_API_KEY="your-key-here"

So vermeiden Sie, dass der Schlüssel in Ihrer Git-Historie, in Logs oder in geteilten Dateien landet. Wenn Sie API-Schlüssel auch in Ihrem Editor verwenden, gelten dieselben Regeln. Häufige Lecks sind in der API-Schlüsselsicherheit für VS Code-Erweiterungen beschrieben.

Schritt 2: Erste Anfrage senden

Der Chat-Endpunkt lautet:

POST https://api.minimax.io/v1/chat/completions

Basis-URL:

https://api.minimax.io/v1

Authentifizierung:

Authorization: Bearer $MINIMAX_API_KEY

Modell-ID:

MiniMax-M3

Minimaler curl-Request

curl https://api.minimax.io/v1/chat/completions \
  -H "Authorization: Bearer $MINIMAX_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "MiniMax-M3",
    "messages": [
      {
        "role": "user",
        "content": "Refactor this function to be async."
      }
    ]
  }'

MiniMax M3 kann über reines HTTP, das OpenAI SDK oder das Anthropic SDK aufgerufen werden. MiniMax empfiehlt das Anthropic SDK, aber alle Varianten verwenden denselben Endpunkt. Wählen Sie die Option, die am besten zu Ihrem Stack passt.

Python mit OpenAI SDK

Die wichtigste Änderung gegenüber einem normalen OpenAI-Setup ist die base_url.

from openai import OpenAI

client = OpenAI(
    base_url="https://api.minimax.io/v1",
    api_key="YOUR_API_KEY",
)

response = client.chat.completions.create(
    model="MiniMax-M3",
    messages=[
        {
            "role": "user",
            "content": "Refactor this function to be async."
        }
    ],
)

print(response.choices[0].message.content)

In produktivem Code sollten Sie den Schlüssel aus der Umgebung lesen:

import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.minimax.io/v1",
    api_key=os.environ["MINIMAX_API_KEY"],
)

Node.js mit OpenAI SDK

import OpenAI from "openai";

const client = new OpenAI({
  baseURL: "https://api.minimax.io/v1",
  apiKey: process.env.MINIMAX_API_KEY,
});

const response = await client.chat.completions.create({
  model: "MiniMax-M3",
  messages: [
    {
      role: "user",
      content: "Refactor this function to be async.",
    },
  ],
});

console.log(response.choices[0].message.content);

Wenn Sie bereits die Qwen 3.7 API verwendet haben, ist das Muster ähnlich: viele aktuelle Modelle bieten eine OpenAI-kompatible Oberfläche, sodass oft nur die Basis-URL geändert werden muss. Details zu Client-Optionen finden Sie in der OpenAI Python SDK-Dokumentation und der Anthropic SDK-Dokumentation.

Schritt 3: Request in Apidog testen

Bevor Sie den Request in Ihre Anwendung einbauen, testen Sie ihn manuell. So sehen Sie Header, Body, Statuscode und Rohantwort, ohne Debugging-Code schreiben zu müssen.

Öffnen Sie Apidog und richten Sie den Request ein.

Erstellen Sie eine neue HTTP-Anfrage.
Setzen Sie die Methode auf POST.
Verwenden Sie diese URL:

   https://api.minimax.io/v1/chat/completions

Öffnen Sie die Umgebungseinstellungen.
Erstellen Sie eine Variable:

   MINIMAX_API_KEY

Speichern Sie Ihren API-Schlüssel als Wert dieser Variable.
Fügen Sie im Header hinzu:

   Authorization: Bearer {{MINIMAX_API_KEY}}

Fügen Sie zusätzlich hinzu:

   Content-Type: application/json

Setzen Sie den Body auf rohes JSON:

   {
     "model": "MiniMax-M3",
     "messages": [
       {
         "role": "user",
         "content": "Refactor this function to be async."
       }
     ]
   }

Senden Sie den Request und prüfen Sie die Antwort.

[Screenshot: die MiniMax-M3-Anfrage und -Antwort in Apidog]

Der Vorteil: Sie können die Anfrage mit Teamkollegen teilen, ohne den Schlüssel offenzulegen. Für Pay-as-you-go- und Abonnement-Schlüssel ändern Sie nur die Umgebungsvariable. Wenn Sie später Streaming aktivieren, zeigt Apidog die Server-Sent Events beim Eintreffen an. So prüfen Sie das Stream-Format, bevor Sie Parser-Code schreiben.

Schritt 4: Denkmodus aktivieren oder deaktivieren

MiniMax M3 ist ein Reasoning-Modell. Standardmäßig erhalten Sie die finale Antwort. Bei Bedarf können Sie zusätzlich das Zwischen-Reasoning abrufen.

Mit dem OpenAI SDK übergeben Sie dafür reasoning_split über extra_body:

from openai import OpenAI

client = OpenAI(
    base_url="https://api.minimax.io/v1",
    api_key="YOUR_API_KEY",
)

response = client.chat.completions.create(
    model="MiniMax-M3",
    messages=[
        {
            "role": "user",
            "content": "Refactor this function to be async."
        }
    ],
    extra_body={
        "reasoning_split": True
    },
)

print(response.choices[0].message.reasoning_details[0]["text"])  # thinking
print(response.choices[0].message.content)                       # final answer

Bei aktiviertem reasoning_split erhalten Sie:

Reasoning unter:

  response.choices[0].message.reasoning_details[0]["text"]

Finale Antwort unter:

  response.choices[0].message.content

Halten Sie beides getrennt. Zeigen Sie in der UI die finale Antwort an und verwenden Sie das Reasoning eher für Debugging, Logs oder Verifizierungsschritte.

Aktivieren Sie den Denkmodus für:

mehrstufige Refaktorierungen
komplexe Fehlersuche
Audits von Modellentscheidungen
Agenten-Workflows mit Validierung

Deaktivieren Sie ihn für einfache, latenzkritische Requests, bei denen zusätzliche Reasoning-Tokens nur Kosten und Antwortzeit erhöhen.

Schritt 5: Mit dem 1M-Token-Kontext arbeiten

Das große Kontextfenster ist einer der Hauptgründe für MiniMax M3. Sie können z. B. eine große Logdatei übergeben und gezielt nach einer Ursache suchen:

with open("production-2026-05-30.log") as f:
    log_text = f.read()

response = client.chat.completions.create(
    model="MiniMax-M3",
    messages=[
        {
            "role": "user",
            "content": (
                "Find the root cause of the 502 spike at 14:20 UTC.\n\n"
                f"{log_text}"
            ),
        }
    ],
)

Wichtig für die Kosten: MiniMax berechnet einen Standardtarif für Aufrufe mit bis zu 512K Eingabetokens. Sobald die Eingabe mehr als 512K Tokens enthält, gilt ein höherer Long-Context-Tarif.

Das bedeutet: Ein Prompt mit 600K Tokens ist nicht nur etwas teurer als einer mit 400K Tokens. Er überschreitet eine Preisschwelle.

Praktische Regeln:

Senden Sie nicht automatisch den gesamten Kontext.
Kürzen Sie Logs, Diffs und Dokumente auf den relevanten Bereich.
Trennen Sie lange Agenten-Workflows in kleinere, gezielte Requests.
Prüfen Sie Token-Kosten besonders bei Schleifen und Retry-Logik.

Weitere Ansätze finden Sie in wie man Agenten-Token-Kosten reduziert.

Schritt 6: Tool-Aufrufe implementieren

M3 unterstützt Tool-Aufrufe. Damit kann das Modell Funktionen vorschlagen, die Ihr Code anschließend ausführt.

Beispiel: Das Modell darf eine Test-Suite starten.

tools = [
    {
        "type": "function",
        "function": {
            "name": "run_tests",
            "description": "Run the test suite for a given module path.",
            "parameters": {
                "type": "object",
                "properties": {
                    "module": {
                        "type": "string"
                    },
                },
                "required": ["module"],
            },
        },
    }
]

response = client.chat.completions.create(
    model="MiniMax-M3",
    messages=[
        {
            "role": "user",
            "content": "Fix the failing test in auth/session.py and confirm it passes."
        }
    ],
    tools=tools,
)

Wenn das Modell ein Tool aufrufen möchte, enthält die Antwort ein tool_calls-Array. Der typische Ablauf sieht so aus:

Sie senden Prompt und Tool-Definitionen.
Das Modell gibt einen Tool-Aufruf zurück.
Ihre Anwendung führt die entsprechende Funktion aus.
Sie hängen das Tool-Ergebnis als tool-Nachricht an.
Sie rufen die API erneut auf.
Das Modell nutzt das Ergebnis und fährt fort.

Gerade dieser Handshake ist fehleranfällig: falsche Tool-Namen, ungültige Parameter, fehlende Tool-Antworten oder nicht deterministische Ausführung. Die wichtigsten Muster und Fallstricke finden Sie in Verdrahtung von Agenten-Workflow-Tools.

Auch hier ist Apidog hilfreich: Speichern Sie jeden Schritt des Austauschs als eigene Anfrage. So können Sie die ursprüngliche Anfrage, die Tool-Call-Antwort, das Tool-Ergebnis und den Folge-Request einzeln prüfen, statt alles nur innerhalb Ihrer Agenten-Laufzeit zu debuggen.

Schritt 7: Multimodale Eingaben senden

M3 unterstützt multimodale Eingaben. Sie können also nicht nur Text, sondern auch Bildinhalte im Nachrichtenarray übergeben.

Das Muster ist:

Text-Prompt als Content-Part
Bildinhalt als weiterer Content-Part
beides in derselben Message

Die genaue Struktur hängt von den aktuell unterstützten Feldern ab. Prüfen Sie dafür die API-Referenz, da sich multimodale Endpunkte und Feldnamen schneller ändern als reine Text-APIs.

Preise und Stufen

Bei den Kosten spielen zwei Faktoren zusammen: Token-Plan und Dienststufe.

Token-Pläne

Abonnementstufen bündeln Token-Guthaben, das über einen Abonnement-Schlüssel verbraucht wird:

Plus: 20 $
Max: 50 $
Ultra: 120 $

Alternativ können Sie Pay-as-you-go nutzen. Dann wird ein regulärer API-Schlüssel gegen Ihr Guthaben abgerechnet.

Dienststufen

Es gibt zwei Dienststufen:

standard
priority

standard ist die Standardeinstellung und reicht für viele Workloads. priority ist für latenzempfindlichen oder SLA-gebundenen Traffic gedacht, der bevorzugt verarbeitet werden soll.

Zusätzlich zur 512K-Schwelle aus Schritt 5 hängen Ihre tatsächlichen Kosten von Eingabegröße, Plan und Dienststufe ab. Prüfen Sie für aktuelle Tokenpreise die MiniMax Preis- und Modellseite und die API-Dokumente, da veröffentlichte Tarife sich ändern können.

Häufig gestellte Fragen

Gibt es eine kostenlose Möglichkeit, M3 auszuprobieren?

Ja. Sie können MiniMax M3 testen, ohne sich direkt auf einen Plan festzulegen. Eine Übersicht der verfügbaren Optionen finden Sie in wie man MiniMax M3 kostenlos nutzt.

Welche SDKs funktionieren mit der API?

Sie können drei Wege nutzen:

reines HTTP
Anthropic SDK
OpenAI SDK

MiniMax empfiehlt das Anthropic SDK. Das OpenAI SDK funktioniert ebenfalls über den Endpunkt:

https://api.minimax.io/v1/chat/completions

Bei OpenAI- und Anthropic-Clients ändern Sie im Wesentlichen die base_url, damit der Client MiniMax statt den Standardanbieter aufruft.

Wie streame ich Antworten?

Fügen Sie dem Request-Body hinzu:

{
  "stream": true
}

Die API gibt Server-Sent Events zurück. Beide SDKs stellen dafür Iteratoren bereit, mit denen Sie Chunks beim Eintreffen verarbeiten können.

Testen Sie den Stream zuerst in Apidog, damit Sie das Ereignisformat sehen, bevor Sie Parser-Code schreiben.

Was ist das Ratenlimit?

Die Limits hängen von Ihrer Kontostufe und davon ab, ob Sie standard oder priority verwenden. Wenn Sie einen 429-Fehler erhalten:

Backoff einbauen
später erneut versuchen
parallele Requests reduzieren
latenzkritischen Traffic ggf. auf priority verschieben

Aktuelle Werte finden Sie im Kontodashboard und in den API-Dokumenten.

Wie wirkt sich die 512K-Schwelle auf die Rechnung aus?

Requests mit bis zu 512K Eingabetokens werden zum Standardtarif abgerechnet. Ab mehr als 512K Eingabetokens gilt der höhere Long-Context-Tarif.

Kürzen Sie Prompts daher auf die Tokens, die das Modell wirklich benötigt. Das ist besonders wichtig in Agenten-Schleifen, in denen sich Kosten über mehrere Aufrufe summieren.

Kann ich die Gewichte selbst hosten?

Dieser Leitfaden behandelt die gehostete API. Sie ist der schnellste Weg, um mit MiniMax M3 zu starten. Ob und wie Selbst-Hosting möglich ist, hängt davon ab, was MiniMax für M3 aktuell veröffentlicht. Prüfen Sie dafür die Modellseite.

Zusammenfassung

Sie haben jetzt die wichtigsten Bausteine für MiniMax M3:

API-Schlüssel als Umgebungsvariable speichern
Requests mit curl, Python und Node.js senden
MiniMax über eine OpenAI-kompatible base_url ansprechen
Requests in Apidog manuell prüfen
Denkmodus mit reasoning_split aktivieren
512K-Token-Schwelle bei Kosten berücksichtigen
Tool-Aufrufe strukturiert verarbeiten
Streaming und multimodale Eingaben gezielt testen

Der schnellste nächste Schritt: Erstellen Sie den Request in Apidog, speichern Sie Ihr Bearer-Token als Umgebungsvariable, senden Sie den Refactoring-Prompt und prüfen Sie die Rohantwort. Danach können Sie denselben Request mit minimalen Änderungen in Ihren Anwendungscode übernehmen.

DEV Community