DEV Community

Cover image for MiniMax M3 API: Nutzung & Anleitung
Emre Demir
Emre Demir

Posted on • Originally published at apidog.com

MiniMax M3 API: Nutzung & Anleitung

MiniMax M3 ist ein Reasoning- und Coding-Modell mit einem Kontextfenster von bis zu 1.000.000 Tokens. Praktisch heißt das: Sie können große Repositories, umfangreiche Logs oder lange Designdokumente in einem einzigen Aufruf verarbeiten lassen. Wenn Sie zuerst den Hintergrund zum Modell lesen möchten, starten Sie mit was MiniMax M3 ist.

Teste Apidog noch heute

Dieser Leitfaden zeigt die Implementierung: API-Schlüssel erstellen, erste Requests mit curl, Python und Node senden, Reasoning aktivieren, Long-Context-Kosten beachten und alles vorher in Apidog testen. Wenn Sie mitarbeiten möchten, laden Sie Apidog herunter.

Die offizielle Referenz finden Sie in den MiniMax API-Dokumenten. Lassen Sie sie während der Implementierung geöffnet.

MiniMax M3 Übersicht

Was Sie benötigen

  • Ein MiniMax-Konto unter platform.minimax.io.
  • Einen API-Schlüssel.
  • Eine aktive Abrechnung: Pay-as-you-go-Guthaben oder ein Abonnement-Token-Plan.
  • Für SDK-Beispiele:
    • Python 3.8+
    • Node.js 18+

Für die curl-Beispiele reicht eine Shell.

Schritt 1: API-Schlüssel erstellen

Melden Sie sich unter platform.minimax.io an, öffnen Sie den API-Schlüsselbereich Ihres Kontos und erstellen Sie einen neuen Schlüssel.

MiniMax unterscheidet zwei Arten von Anmeldeinformationen:

  • Regulärer API-Schlüssel: wird über Pay-as-you-go-Guthaben abgerechnet.
  • Abonnement-Schlüssel: nutzt das Token-Guthaben Ihres Plans, z. B. Plus, Max oder Ultra. Wenn das Plan-Kontingent aufgebraucht ist, stoppen Aufrufe mit diesem Schlüssel, bis der Plan erneuert wird oder Sie zu einem Pay-as-you-go-Schlüssel wechseln.

Kopieren Sie den Schlüssel direkt nach der Erstellung und speichern Sie ihn sicher. Fügen Sie ihn nicht in den Quellcode ein, sondern verwenden Sie eine Umgebungsvariable:

export MINIMAX_API_KEY="your-key-here"
Enter fullscreen mode Exit fullscreen mode

So vermeiden Sie, dass der Schlüssel in Ihrer Git-Historie, in Logs oder in geteilten Dateien landet. Wenn Sie API-Schlüssel auch in Ihrem Editor verwenden, gelten dieselben Regeln. Häufige Lecks sind in der API-Schlüsselsicherheit für VS Code-Erweiterungen beschrieben.

Schritt 2: Erste Anfrage senden

Der Chat-Endpunkt lautet:

POST https://api.minimax.io/v1/chat/completions
Enter fullscreen mode Exit fullscreen mode

Basis-URL:

https://api.minimax.io/v1
Enter fullscreen mode Exit fullscreen mode

Authentifizierung:

Authorization: Bearer $MINIMAX_API_KEY
Enter fullscreen mode Exit fullscreen mode

Modell-ID:

MiniMax-M3
Enter fullscreen mode Exit fullscreen mode

Minimaler curl-Request

curl https://api.minimax.io/v1/chat/completions \
  -H "Authorization: Bearer $MINIMAX_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "MiniMax-M3",
    "messages": [
      {
        "role": "user",
        "content": "Refactor this function to be async."
      }
    ]
  }'
Enter fullscreen mode Exit fullscreen mode

MiniMax M3 kann über reines HTTP, das OpenAI SDK oder das Anthropic SDK aufgerufen werden. MiniMax empfiehlt das Anthropic SDK, aber alle Varianten verwenden denselben Endpunkt. Wählen Sie die Option, die am besten zu Ihrem Stack passt.

Python mit OpenAI SDK

Die wichtigste Änderung gegenüber einem normalen OpenAI-Setup ist die base_url.

from openai import OpenAI

client = OpenAI(
    base_url="https://api.minimax.io/v1",
    api_key="YOUR_API_KEY",
)

response = client.chat.completions.create(
    model="MiniMax-M3",
    messages=[
        {
            "role": "user",
            "content": "Refactor this function to be async."
        }
    ],
)

print(response.choices[0].message.content)
Enter fullscreen mode Exit fullscreen mode

In produktivem Code sollten Sie den Schlüssel aus der Umgebung lesen:

import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.minimax.io/v1",
    api_key=os.environ["MINIMAX_API_KEY"],
)
Enter fullscreen mode Exit fullscreen mode

Node.js mit OpenAI SDK

import OpenAI from "openai";

const client = new OpenAI({
  baseURL: "https://api.minimax.io/v1",
  apiKey: process.env.MINIMAX_API_KEY,
});

const response = await client.chat.completions.create({
  model: "MiniMax-M3",
  messages: [
    {
      role: "user",
      content: "Refactor this function to be async.",
    },
  ],
});

console.log(response.choices[0].message.content);
Enter fullscreen mode Exit fullscreen mode

Wenn Sie bereits die Qwen 3.7 API verwendet haben, ist das Muster ähnlich: viele aktuelle Modelle bieten eine OpenAI-kompatible Oberfläche, sodass oft nur die Basis-URL geändert werden muss. Details zu Client-Optionen finden Sie in der OpenAI Python SDK-Dokumentation und der Anthropic SDK-Dokumentation.

Schritt 3: Request in Apidog testen

Bevor Sie den Request in Ihre Anwendung einbauen, testen Sie ihn manuell. So sehen Sie Header, Body, Statuscode und Rohantwort, ohne Debugging-Code schreiben zu müssen.

Öffnen Sie Apidog und richten Sie den Request ein.

MiniMax M3 Request in Apidog

  1. Erstellen Sie eine neue HTTP-Anfrage.
  2. Setzen Sie die Methode auf POST.
  3. Verwenden Sie diese URL:
   https://api.minimax.io/v1/chat/completions
Enter fullscreen mode Exit fullscreen mode
  1. Öffnen Sie die Umgebungseinstellungen.
  2. Erstellen Sie eine Variable:
   MINIMAX_API_KEY
Enter fullscreen mode Exit fullscreen mode
  1. Speichern Sie Ihren API-Schlüssel als Wert dieser Variable.
  2. Fügen Sie im Header hinzu:
   Authorization: Bearer {{MINIMAX_API_KEY}}
Enter fullscreen mode Exit fullscreen mode
  1. Fügen Sie zusätzlich hinzu:
   Content-Type: application/json
Enter fullscreen mode Exit fullscreen mode
  1. Setzen Sie den Body auf rohes JSON:
   {
     "model": "MiniMax-M3",
     "messages": [
       {
         "role": "user",
         "content": "Refactor this function to be async."
       }
     ]
   }
Enter fullscreen mode Exit fullscreen mode
  1. Senden Sie den Request und prüfen Sie die Antwort.

[Screenshot: die MiniMax-M3-Anfrage und -Antwort in Apidog]

Der Vorteil: Sie können die Anfrage mit Teamkollegen teilen, ohne den Schlüssel offenzulegen. Für Pay-as-you-go- und Abonnement-Schlüssel ändern Sie nur die Umgebungsvariable. Wenn Sie später Streaming aktivieren, zeigt Apidog die Server-Sent Events beim Eintreffen an. So prüfen Sie das Stream-Format, bevor Sie Parser-Code schreiben.

Schritt 4: Denkmodus aktivieren oder deaktivieren

MiniMax M3 ist ein Reasoning-Modell. Standardmäßig erhalten Sie die finale Antwort. Bei Bedarf können Sie zusätzlich das Zwischen-Reasoning abrufen.

Mit dem OpenAI SDK übergeben Sie dafür reasoning_split über extra_body:

from openai import OpenAI

client = OpenAI(
    base_url="https://api.minimax.io/v1",
    api_key="YOUR_API_KEY",
)

response = client.chat.completions.create(
    model="MiniMax-M3",
    messages=[
        {
            "role": "user",
            "content": "Refactor this function to be async."
        }
    ],
    extra_body={
        "reasoning_split": True
    },
)

print(response.choices[0].message.reasoning_details[0]["text"])  # thinking
print(response.choices[0].message.content)                       # final answer
Enter fullscreen mode Exit fullscreen mode

Bei aktiviertem reasoning_split erhalten Sie:

  • Reasoning unter:
  response.choices[0].message.reasoning_details[0]["text"]
Enter fullscreen mode Exit fullscreen mode
  • Finale Antwort unter:
  response.choices[0].message.content
Enter fullscreen mode Exit fullscreen mode

Halten Sie beides getrennt. Zeigen Sie in der UI die finale Antwort an und verwenden Sie das Reasoning eher für Debugging, Logs oder Verifizierungsschritte.

Aktivieren Sie den Denkmodus für:

  • mehrstufige Refaktorierungen
  • komplexe Fehlersuche
  • Audits von Modellentscheidungen
  • Agenten-Workflows mit Validierung

Deaktivieren Sie ihn für einfache, latenzkritische Requests, bei denen zusätzliche Reasoning-Tokens nur Kosten und Antwortzeit erhöhen.

Schritt 5: Mit dem 1M-Token-Kontext arbeiten

Das große Kontextfenster ist einer der Hauptgründe für MiniMax M3. Sie können z. B. eine große Logdatei übergeben und gezielt nach einer Ursache suchen:

with open("production-2026-05-30.log") as f:
    log_text = f.read()

response = client.chat.completions.create(
    model="MiniMax-M3",
    messages=[
        {
            "role": "user",
            "content": (
                "Find the root cause of the 502 spike at 14:20 UTC.\n\n"
                f"{log_text}"
            ),
        }
    ],
)
Enter fullscreen mode Exit fullscreen mode

Wichtig für die Kosten: MiniMax berechnet einen Standardtarif für Aufrufe mit bis zu 512K Eingabetokens. Sobald die Eingabe mehr als 512K Tokens enthält, gilt ein höherer Long-Context-Tarif.

Das bedeutet: Ein Prompt mit 600K Tokens ist nicht nur etwas teurer als einer mit 400K Tokens. Er überschreitet eine Preisschwelle.

Praktische Regeln:

  • Senden Sie nicht automatisch den gesamten Kontext.
  • Kürzen Sie Logs, Diffs und Dokumente auf den relevanten Bereich.
  • Trennen Sie lange Agenten-Workflows in kleinere, gezielte Requests.
  • Prüfen Sie Token-Kosten besonders bei Schleifen und Retry-Logik.

Weitere Ansätze finden Sie in wie man Agenten-Token-Kosten reduziert.

Schritt 6: Tool-Aufrufe implementieren

M3 unterstützt Tool-Aufrufe. Damit kann das Modell Funktionen vorschlagen, die Ihr Code anschließend ausführt.

Beispiel: Das Modell darf eine Test-Suite starten.

tools = [
    {
        "type": "function",
        "function": {
            "name": "run_tests",
            "description": "Run the test suite for a given module path.",
            "parameters": {
                "type": "object",
                "properties": {
                    "module": {
                        "type": "string"
                    },
                },
                "required": ["module"],
            },
        },
    }
]

response = client.chat.completions.create(
    model="MiniMax-M3",
    messages=[
        {
            "role": "user",
            "content": "Fix the failing test in auth/session.py and confirm it passes."
        }
    ],
    tools=tools,
)
Enter fullscreen mode Exit fullscreen mode

Wenn das Modell ein Tool aufrufen möchte, enthält die Antwort ein tool_calls-Array. Der typische Ablauf sieht so aus:

  1. Sie senden Prompt und Tool-Definitionen.
  2. Das Modell gibt einen Tool-Aufruf zurück.
  3. Ihre Anwendung führt die entsprechende Funktion aus.
  4. Sie hängen das Tool-Ergebnis als tool-Nachricht an.
  5. Sie rufen die API erneut auf.
  6. Das Modell nutzt das Ergebnis und fährt fort.

Gerade dieser Handshake ist fehleranfällig: falsche Tool-Namen, ungültige Parameter, fehlende Tool-Antworten oder nicht deterministische Ausführung. Die wichtigsten Muster und Fallstricke finden Sie in Verdrahtung von Agenten-Workflow-Tools.

Auch hier ist Apidog hilfreich: Speichern Sie jeden Schritt des Austauschs als eigene Anfrage. So können Sie die ursprüngliche Anfrage, die Tool-Call-Antwort, das Tool-Ergebnis und den Folge-Request einzeln prüfen, statt alles nur innerhalb Ihrer Agenten-Laufzeit zu debuggen.

Schritt 7: Multimodale Eingaben senden

M3 unterstützt multimodale Eingaben. Sie können also nicht nur Text, sondern auch Bildinhalte im Nachrichtenarray übergeben.

Das Muster ist:

  • Text-Prompt als Content-Part
  • Bildinhalt als weiterer Content-Part
  • beides in derselben Message

Die genaue Struktur hängt von den aktuell unterstützten Feldern ab. Prüfen Sie dafür die API-Referenz, da sich multimodale Endpunkte und Feldnamen schneller ändern als reine Text-APIs.

Preise und Stufen

Bei den Kosten spielen zwei Faktoren zusammen: Token-Plan und Dienststufe.

Token-Pläne

Abonnementstufen bündeln Token-Guthaben, das über einen Abonnement-Schlüssel verbraucht wird:

  • Plus: 20 $
  • Max: 50 $
  • Ultra: 120 $

Alternativ können Sie Pay-as-you-go nutzen. Dann wird ein regulärer API-Schlüssel gegen Ihr Guthaben abgerechnet.

MiniMax Preise und Stufen

Dienststufen

Es gibt zwei Dienststufen:

  • standard
  • priority

standard ist die Standardeinstellung und reicht für viele Workloads. priority ist für latenzempfindlichen oder SLA-gebundenen Traffic gedacht, der bevorzugt verarbeitet werden soll.

Zusätzlich zur 512K-Schwelle aus Schritt 5 hängen Ihre tatsächlichen Kosten von Eingabegröße, Plan und Dienststufe ab. Prüfen Sie für aktuelle Tokenpreise die MiniMax Preis- und Modellseite und die API-Dokumente, da veröffentlichte Tarife sich ändern können.

Häufig gestellte Fragen

Gibt es eine kostenlose Möglichkeit, M3 auszuprobieren?

Ja. Sie können MiniMax M3 testen, ohne sich direkt auf einen Plan festzulegen. Eine Übersicht der verfügbaren Optionen finden Sie in wie man MiniMax M3 kostenlos nutzt.

Welche SDKs funktionieren mit der API?

Sie können drei Wege nutzen:

  • reines HTTP
  • Anthropic SDK
  • OpenAI SDK

MiniMax empfiehlt das Anthropic SDK. Das OpenAI SDK funktioniert ebenfalls über den Endpunkt:

https://api.minimax.io/v1/chat/completions
Enter fullscreen mode Exit fullscreen mode

Bei OpenAI- und Anthropic-Clients ändern Sie im Wesentlichen die base_url, damit der Client MiniMax statt den Standardanbieter aufruft.

Wie streame ich Antworten?

Fügen Sie dem Request-Body hinzu:

{
  "stream": true
}
Enter fullscreen mode Exit fullscreen mode

Die API gibt Server-Sent Events zurück. Beide SDKs stellen dafür Iteratoren bereit, mit denen Sie Chunks beim Eintreffen verarbeiten können.

Testen Sie den Stream zuerst in Apidog, damit Sie das Ereignisformat sehen, bevor Sie Parser-Code schreiben.

Was ist das Ratenlimit?

Die Limits hängen von Ihrer Kontostufe und davon ab, ob Sie standard oder priority verwenden. Wenn Sie einen 429-Fehler erhalten:

  • Backoff einbauen
  • später erneut versuchen
  • parallele Requests reduzieren
  • latenzkritischen Traffic ggf. auf priority verschieben

Aktuelle Werte finden Sie im Kontodashboard und in den API-Dokumenten.

Wie wirkt sich die 512K-Schwelle auf die Rechnung aus?

Requests mit bis zu 512K Eingabetokens werden zum Standardtarif abgerechnet. Ab mehr als 512K Eingabetokens gilt der höhere Long-Context-Tarif.

Kürzen Sie Prompts daher auf die Tokens, die das Modell wirklich benötigt. Das ist besonders wichtig in Agenten-Schleifen, in denen sich Kosten über mehrere Aufrufe summieren.

Kann ich die Gewichte selbst hosten?

Dieser Leitfaden behandelt die gehostete API. Sie ist der schnellste Weg, um mit MiniMax M3 zu starten. Ob und wie Selbst-Hosting möglich ist, hängt davon ab, was MiniMax für M3 aktuell veröffentlicht. Prüfen Sie dafür die Modellseite.

Zusammenfassung

Sie haben jetzt die wichtigsten Bausteine für MiniMax M3:

  • API-Schlüssel als Umgebungsvariable speichern
  • Requests mit curl, Python und Node.js senden
  • MiniMax über eine OpenAI-kompatible base_url ansprechen
  • Requests in Apidog manuell prüfen
  • Denkmodus mit reasoning_split aktivieren
  • 512K-Token-Schwelle bei Kosten berücksichtigen
  • Tool-Aufrufe strukturiert verarbeiten
  • Streaming und multimodale Eingaben gezielt testen

Der schnellste nächste Schritt: Erstellen Sie den Request in Apidog, speichern Sie Ihr Bearer-Token als Umgebungsvariable, senden Sie den Refactoring-Prompt und prüfen Sie die Rohantwort. Danach können Sie denselben Request mit minimalen Änderungen in Ihren Anwendungscode übernehmen.

Top comments (0)