Emre Demir

Posted on May 20 • Originally published at apidog.com

Agent hat mich angelogen: Apidog KI Agent Debugger deckt die Wahrheit auf

Ein Dienstagnachmittag. Zwölf Durchläufe später in einer Debugging-Sitzung, und der Agent behauptete selbstbewusst, dass unser /users-Endpunkt in siebenundvierzig Sekunden antwortete. Die tatsächliche Zahl waren siebenundvierzig Millisekunden.

Probieren Sie Apidog noch heute aus

Ich hatte diesen Fehler zwei Tage lang gesucht. Jede zusätzliche print-Anweisung im MCP-Server verschob die Antwort des Agenten gerade so weit, dass ich dachte, ich käme weiter. Jede Änderung am System-Prompt machte die Antwort plausibler. Nichts davon löste das Problem.

Was ich bis dahin nicht getan hatte: den tatsächlichen Ausführungs-Trace öffnen und prüfen, was zwischen Modell und Tool wirklich übergeben wurde. Genau dafür ist der AI Agent Debugger von Apidog gedacht. Ich hatte ihn drei Wochen zuvor installiert und vergessen. Zwölf Minuten nach dem Öffnen war der Fehler gefunden.

Der Fehler, den ich gejagt hatte

Die Einrichtung war überschaubar:

ein Agent auf Basis von GPT-5.5
ein MCP-Server, den ich am Wochenende geschrieben hatte
ein Tool get_response_time(endpoint), das unsere Metrik-Pipeline abfragte
ein System-Prompt mit etwa vierzig Wörtern
der Benutzer-Prompt: „Wie schnell ist der /users-Endpunkt?“

Der Agent antwortete schnell und selbstbewusst, aber falsch. Die Antworten variierten:

„Der Endpunkt antwortet in 47 Sekunden.“
„Ungefähr 0,05 Sekunden.“
„Die Leistung ist akzeptabel.“

Ich hatte die üblichen Dinge ausprobiert:

Logging im MCP-Server ergänzt
Modellantworten Token für Token gelesen
System-Prompts verglichen
Testläufe wiederholt
Fehlannahmen in einer Notion-Seite gesammelt

Das Problem beim Debugging von Agenten: Der Fehler liegt selten dort, wo man zuerst sucht. Er kann in mehreren Schichten stecken:

System-Prompt
Modellauswahl
Tool-Definition
Parameter, die das Modell an das Tool übergibt
Daten, die das Tool zurückgibt
Interpretation dieser Daten durch das Modell

Ein Konsolenlog zeigt meistens nur eine dieser Ebenen.

Was das Traces-Panel tatsächlich zeigt

Der Apidog-Debugger öffnet sich in drei Spalten:

links: Sitzungen
Mitte: Durchläufe
rechts: Traces

Klicken Sie auf eine Sitzung, zeigt die mittlere Spalte den Dialogverlauf:

Benutzernachricht
Modellantwort
Tool-Aufruf
Tool-Rückgabe
nächste Modellantwort

Klicken Sie auf einen Durchlauf, wird rechts der vollständige Ausführungsbaum sichtbar.

Der entscheidende Teil ist der Trace. Er zeigt jeden Schritt in Reihenfolge:

System-Prompt, wie das Modell ihn empfangen hat
Benutzer-Prompt, wie das Modell ihn empfangen hat
Name und Parameter des Tool-Aufrufs als JSON
Tool-Ergebnis-Payload als JSON
Modellantwort mit Timing und Token-Daten

Ich öffnete die fehlerhafte Sitzung. Der Tool-Aufruf sah korrekt aus:

get_response_time(endpoint="/users")

Das Modell hatte also das richtige Tool mit dem richtigen Argument ausgewählt.

Dann öffnete ich das Tool-Ergebnis:

{
  "value": 47,
  "p95": 89,
  "samples": 1240
}

Da war der Fehler. Die Metrik-Pipeline gab Werte in Millisekunden zurück. Das Modell nahm Sekunden an. Aus 47 wurde „47 Sekunden“, weil weder Tool-Antwort noch Prompt die Einheit explizit machten.

Das Tool war korrekt. Das Modell interpretierte die Daten falsch. Mein System-Prompt enthielt keine Anweisung zu Einheiten, und die Tool-Antwort enthielt keine Einheiten-Annotation.

Die Korrektur dauerte sechs Zeilen

Ich habe zwei Dinge geändert.

Zuerst die Antwortstruktur im MCP-Server:

{
  "value": { "amount": 47, "unit": "ms" },
  "p95": { "amount": 89, "unit": "ms" },
  "samples": 1240
}

Dann ergänzte ich den System-Prompt um einen Satz:

Tool-Ergebnisse geben Einheiten explizit zurück. Lesen Sie sie sorgfältig.

Danach führte ich denselben /users-Prompt drei weitere Male aus. Drei neue Sitzungen im linken Panel. Alle drei Antworten waren korrekt: Der Endpunkt antwortet in etwa 47 ms.

Die Token-Kosten lagen achtzehn Prozent niedriger als bei meinen fehlgeschlagenen Läufen. Wahrscheinlich, weil das Modell keine zusätzliche Erklärprosa um seine eigenen falschen Annahmen generierte.

Anschließend führte ich denselben Prompt mit Claude Opus 4.7 in einer zweiten Sitzung aus. Gleiche Tool-Konfiguration, gleicher Prompt, anderes Modell. Das Ergebnis war ebenfalls korrekt, aber teurer und etwas ausführlicher. Damit war klar, welches Modell in Produktion gehen würde.

Der eigentliche Wert lag nicht nur im Finden des Fehlers. Der Modellvergleich mit identischen Konfigurationen und zusammenfassenden Metriken im linken Panel war der praktische Teil:

Durchlaufanzahl
Schrittanzahl
Zeit
Tokens
Kosten

Diesen Vergleich hatte ich vorher manuell in einer Tabelle gemacht. Im Debugger waren es wenige Klicks.

Was ich falsch gemacht hatte

Die naheliegende Annahme ist: Der AI Agent Debugger ist ein Logging-Tool.

Das ist er nicht.

Logging zeigt, was in einem System passiert ist. Der Debugger zeigt, was Modell und Tool tatsächlich ausgetauscht haben. Das ist die Ebene, auf der viele Agentenfehler entstehen.

Wenn Sie Agenten bauen und nur die Modellausgabe lesen, debuggen Sie nicht den Agenten. Sie debuggen Ihre Hypothese über den Agenten.

Ein Agent ist ein geschlossenes Zusammenspiel aus:

Modell
Prompt
Tools
Tool-Antworten

Der Fehler lebt fast immer in einer dieser vier Komponenten oder in der Übergabe zwischen ihnen. Wenn Sie alle vier gleichzeitig sehen, finden Sie Fehler schneller. Wenn nicht, jagen Sie Symptome.

Der Debugger zeigte mir außerdem Nicht-Determinismus in meinem eigenen Agenten. Nach der Korrektur führte ich denselben Prompt fünfmal aus:

drei Läufe riefen get_response_time einmal auf
zwei Läufe riefen es zweimal auf
beim zweiten Aufruf änderte sich die Groß-/Kleinschreibung des Endpunktpfads

Mein Tool-Schema war case-sensitive. Ich hatte das nicht bemerkt, weil meine Testfälle zufällig nur Kleinbuchstaben verwendeten.

Die Mehrfachlauf-Analyse ist deshalb die Funktion, die ich künftig am häufigsten nutzen werde:

denselben Prompt fünfmal ausführen
Sitzungen im linken Panel vergleichen
Unterschiede in Tool-Aufrufen, Parametern und Antwortpfaden prüfen
alles absichern, was zwischen den Läufen variiert

Probieren Sie es selbst aus: vollständige Einrichtung

Wenn Sie dieselbe Debugging-Struktur verwenden möchten, gehen Sie so vor.

Schritt 1: Neue Agenten-Debug-Sitzung erstellen

Öffnen Sie Apidog und wechseln Sie oben zum Tab AI Agent Debugger.

Im oberen Bereich konfigurieren Sie Modell und Ausführung:

Modell-Anbieter links auswählen, z. B. OpenAI oder Anthropic
konkretes Modell in der Mitte auswählen, z. B. gpt-5.5
Basis-URL prüfen; sie wird nach Auswahl des Anbieters automatisch ausgefüllt
auf Run klicken, um eine Sitzung zu starten

Schritt 2: Prompts konfigurieren

Im Tab Prompts gibt es zwei Eingabebereiche.

System Prompt

Hier definieren Sie Rolle, Ziele, Einschränkungen und Tool-Regeln des Agenten.

Beispiel:

Du bist ein API-Debugging-Agent. Nutze verfügbare Tools, um technische Fragen zu beantworten. Wenn Tool-Ergebnisse Einheiten enthalten, übernimm diese Einheiten exakt.

User Prompt

Hier geben Sie die Testeingabe für die aktuelle Sitzung ein.

Beispiel:

Wie schnell ist der /users-Endpunkt?

Klicken Sie anschließend auf Run. Wenn das Eingabefeld nach jedem Lauf automatisch geleert werden soll, aktivieren Sie Clear after Send.

Schritt 3: Tools konfigurieren

Der Tab Tools listet alle Tools auf, die der Agent zur Laufzeit verwenden kann. Die Zahl auf dem Tab zeigt die aktuelle Anzahl verfügbarer oder konfigurierter Tools.

Integrierte Tools

Integrierte Tools werden mit dem Debugger geliefert und können je nach Bedarf aktiviert oder deaktiviert werden.

Tool	Was es tut
`bash`	Befehle in einer persistenten Shell-Sitzung ausführen
`web_fetch`	Webinhalte abrufen und in Markdown, Text oder HTML konvertieren
`read`	Text-, Bild- oder PDF-Dateien lesen
`edit`	Präzise String-Ersetzungen an Dateien vornehmen
`write`	Dateien erstellen oder überschreiben
`grep`	Dateiinhalte mit regulären Ausdrücken durchsuchen
`glob`	Dateien mit Glob-Mustern finden
`kill_shell`	Die aktuelle Shell-Sitzung zurücksetzen

MCP-Tools

MCP-Tools verbinden den Agenten mit externen Systemen oder benutzerdefinierten Funktionen über MCP-Server.

Unterstützte Verbindungsmethoden:

STDIO: lokalen MCP-Serverprozess starten
HTTP: Verbindung zu einem MCP-Server mit Streamable HTTP
SSE: Verbindung zu einem MCP-Server über Server-Sent Events

Wenn ein MCP-Server Authentifizierung benötigt, konfigurieren Sie Anforderungs-Header oder OAuth 2.0. Nach erfolgreicher Verbindung wählen Sie aus, welche Tools der Server dem Agenten bereitstellt.

Schritt 4: Skills, Authentifizierung und Modellparameter konfigurieren

Drei weitere Tabs vervollständigen die Einrichtung.

Skills

Skills sind wiederverwendbare Workflows für den Agenten. Sie eignen sich für:

feste Projektabläufe
wiederkehrende Aufgaben
gemeinsame Operationsspezifikationen
weniger lange System-Prompts

Skills werden bei Bedarf zur Laufzeit geladen.

Authentication

Im Tab Authentication hinterlegen Sie Anmeldeinformationen, die Modell- oder MCP-Dienste benötigen.

Settings

Im Tab Settings konfigurieren Sie Modell-Laufzeitparameter wie:

Temperature
Max Tokens
Top P

Welche Parameter unterstützt werden, hängt vom Anbieter ab. Prüfen Sie deshalb, welche Optionen Ihr Modell tatsächlich akzeptiert.

Schritt 5: Die drei Panels lesen

Nach dem Klick auf Run erscheint die neue Sitzung im linken Panel.

Eine Sitzung zeigt eine kompakte Zusammenfassung:

Sitzung 3
1 Durchlauf · 1 Schritt · 10s · 3.1k Tokens · $0.02
gpt-5.5

So lesen Sie die Panels:

Sitzungs-Panel links: Verlauf aller Ausführungen mit zusammenfassenden Metriken
Durchlauf-Panel Mitte: einzelne Runden des Benutzer-/Modell-Dialogs
Traces-Panel rechts: vollständige Ausführungskette des Agenten

Im Traces-Panel sehen Sie unter anderem:

System- und Benutzer-Prompts
Modell-Aufrufe
Denkprozess des Modells, falls vom Modell offengelegt
MCP-Tool-Aufrufe
Skill-Ausführungen
Tool-Eingabeparameter
Tool-Ergebnisse
Laufzeit
Fehlermeldungen
finale Ausgabe

Wenn ein Tool-Aufruf fehlschlägt oder das Modell eine Ausnahme zurückgibt, ist der fehlerhafte Schritt direkt im Trace sichtbar. Sie müssen nicht in mehreren Logs suchen.

Schritt 6: Modellleistung vergleichen

Für einen sinnvollen Modellvergleich halten Sie alles konstant:

gleicher Prompt
gleiche Tool-Konfiguration
gleiche Authentifizierung
gleiche Settings, soweit vom Anbieter unterstützt

Dann wechseln Sie nur das Modell und starten einen neuen Lauf. Jede Ausführung erzeugt eine neue Sitzung im linken Panel.

Nützliche Vergleichsmetriken:

Anzahl der Ausführungsschritte für dieselbe Aufgabe
Genauigkeit bei der Tool-Auswahl
Antwortzeit
Token-Verbrauch
Kosten
Stabilität über mehrere Läufe

Ein einfacher Testablauf:

1. Prompt mit Modell A ausführen
2. Prompt mit Modell B ausführen
3. Sitzungen im linken Panel vergleichen
4. Traces öffnen
5. Tool-Aufrufe und Parameter nebeneinander prüfen
6. Kosten, Tokens und Antwortqualität bewerten

Das Fazit

Zwei Tage Debugging reduzierten sich auf zwölf Minuten, weil ich endlich die richtige Ebene gesehen habe: den Austausch zwischen Modell und Tool.

Der Fehler lag nicht im Tool selbst. Er lag nicht in der Modellantwort allein. Er lag in der fehlenden Einheit in der Tool-Payload und in der daraus folgenden Modellinterpretation.

Für Agenten-Debugging heißt das praktisch:

Tool-Antworten explizit machen
Einheiten und Formate nicht implizit lassen
gleiche Prompts mehrfach ausführen
Tool-Parameter in Traces prüfen
Modelle mit identischen Setups vergleichen
nicht nur Ausgaben lesen, sondern Übergaben zwischen Modell und Tool prüfen

Wenn Sie mehr als einen Agenten gebaut haben und den AI Agent Debugger von Apidog noch nicht geöffnet haben, wird einer Ihrer nächsten Fehler wahrscheinlich genau zwischen Modell und Tool liegen.

Laden Sie Apidog herunter und öffnen Sie es beim nächsten Agenten, der eine falsche Antwort mit überzeugender Stimme gibt.

Zwölf Minuten. Siebenundvierzig Millisekunden, nicht siebenundvierzig Sekunden.

Die vollständige Funktionsreferenz, einschließlich MCP-Transport-Setup und Plan-Verfügbarkeit, finden Sie unter Apidog AI Agent Debugger: Verfügbarkeit, Abdeckung und Einrichtung.

DEV Community