Emre Demir

Posted on May 8 • Originally published at apidog.com

Computernutzung vs. Strukturierte APIs: Wann Was Besser Ist (2026)

Das Steuern eines Browsers mit einem LLM über Computer-Nutzungsmodelle ist ungefähr 45-mal teurer, als denselben Anbieter über eine strukturierte API aufzurufen.

Apidog noch heute ausprobieren

Dieser Leitfaden zeigt, woher diese 45x-Kosten kommen, wann Computer-Nutzung trotzdem sinnvoll ist und wie Sie mit Apidog strukturierte API-Flows für Agenten entwerfen, mocken und testen. Das Framework gilt für OpenAI Operator, Anthropic Computer-Nutzung, Browser-Nutzung, Skyvern und alle Tools, die mit einer Screenshot-Schleife arbeiten.

Wenn Sie APIs für KI-Agenten schreiben, lesen Sie auch den ergänzenden Leitfaden zu agents.md-Dateien. Die dortigen Konventionen machen strukturierte APIs für Agenten zur naheliegenden Standardeinstellung.

TL;DR

Computer-Nutzung: Das LLM sieht Screenshots und gibt Klicks, Tastatureingaben und Scroll-Aktionen aus.
Strukturierte APIs: Das LLM erzeugt JSON-Tool-Aufrufe, die Ihr Backend ausführt.
Für dieselbe Aufgabe verbraucht Computer-Nutzung oft 30- bis 50-mal mehr Token, weil jeder Schritt einen neuen Screenshot und häufig Wiederholungen braucht.
Nutzen Sie Computer-Nutzung nur, wenn keine API existiert, die API stark limitiert ist oder der Workflow hinter einer schwer automatisierbaren Authentifizierung liegt.
Nutzen Sie für Zahlungen, Suche, CRM-Updates, interne Tools und alles mit OpenAPI-Dokumentation strukturierte APIs.
In der Praxis ist Hybrid meist richtig: APIs für die 90 Prozent mit Endpunkten, Computer-Nutzung für den Long Tail.
Mit Apidog können Sie JSON-Tool-Schemas entwerfen, Endpunkte mocken und Agenten-Flows testen, ohne unnötig Agenten-Guthaben zu verbrennen.

Warum der Kostenunterschied so groß ist

Die 45x-Zahl entsteht direkt aus der Token-Nutzung.

Ein strukturierter API-Aufruf besteht typischerweise aus:

Benutzeranfrage
Tool-Schema
JSON-Antwort des Modells
Backend-Aufruf

Das sind oft nur wenige hundert Eingabe-Token und eine kleine JSON-Ausgabe.

Eine Computer-Nutzungsschleife läuft anders:

Prompt senden
Screenshot senden
Modell gibt Klickkoordinate zurück
Browser führt Klick aus
Neuer Screenshot
Nächster Modellschritt
Wiederholen, bis die Aufgabe fertig ist

Eine Aufgabe wie „Flug buchen“ oder „Bericht im Dashboard abrufen“ kann 12 bis 30 Runden benötigen. Jeder Screenshot kostet bei typischer Auflösung etwa 1.500 Token. Dazu kommen Fehlklicks, Cookie-Banner, falsches Scrollen und Wiederholungsversuche.

Die Anthropic-Dokumentation zur Computer-Nutzung beschreibt die Screenshot-Token-Kosten offen. Der reale Overhead ist meist höher, weil der Agent UI-Zustände korrigieren muss. Der HN-Thread zu Computer-Nutzung ist 45-mal teurer als strukturierte APIs kommt auf eine typische Strafe von 30- bis 50-fach. Das entspricht dem, was sichtbar wird, wenn man denselben Workflow in Apidog einmal als API-Flow und einmal als Browser-Flow testet.

Wann strukturierte APIs gewinnen

Verwenden Sie standardmäßig strukturierte APIs, wenn eine dieser Bedingungen zutrifft.

1. Es gibt eine dokumentierte Schnittstelle

Wenn der Anbieter eine OpenAPI-Spezifikation, ein GraphQL-Schema oder auch nur eine REST-Dokumentation bereitstellt, sollte der Agent diese Schnittstelle nutzen.

Beispiel:

{
  "name": "update_deal_status",
  "description": "Aktualisiert den Status eines CRM-Deals",
  "parameters": {
    "type": "object",
    "properties": {
      "deal_id": {
        "type": "string"
      },
      "status": {
        "type": "string",
        "enum": ["open", "won", "lost"]
      }
    },
    "required": ["deal_id", "status"]
  }
}

Ein Agent kann dieses Schema direkt ausfüllen. Fehler sind leicht zu validieren und günstig zu wiederholen.

2. Die Aufgabe passt in ein oder zwei Endpunkte

Diese Aufgaben sollten nicht über einen Browser laufen:

Stripe-Kunden erstellen
HubSpot-Deal aktualisieren
Slack-Nachricht posten
CI-Rerun auslösen
Rechnungsliste abrufen
Support-Ticket schließen

Wenn ein einzelner HTTP-Aufruf reicht, ist eine Screenshot-Schleife unnötig langsam, teuer und fehleranfällig.

3. Der Workflow läuft unbeaufsichtigt

Cron-Jobs, Webhooks und Queue Worker sollten keine UI bedienen. Sie brauchen deterministische Netzwerkaufrufe, keine Agenten, die eventuell in die falsche Richtung scrollen.

4. Latenz ist relevant

Ein strukturierter API-Aufruf dauert oft 200 bis 800 Millisekunden. Eine Computer-Nutzungsschleife mit 15 Runden dauert 30 bis 90 Sekunden.

Wenn ein Nutzer auf das Ergebnis wartet, ist fast immer die API der richtige Weg.

5. Sie müssen vor dem Versand testen

JSON-Endpunkte lassen sich in Apidog schnell mocken. Eine Browser-Screenshot-Schleife zuverlässig zu mocken, ist deutlich komplexer.

Wann Computer-Nutzung sinnvoll ist

Computer-Nutzung ist nicht nutzlos. Sie ist nur kein guter Standardpfad.

Veraltete Anbieterportale

Einige Beschaffungs-, Fracht- oder Leistungsportale sind älter als moderne APIs. Sie laufen hinter ASP.NET-Sessions oder komplexen Formularen und bieten keine Maschinenschnittstelle.

Wenn die Alternative ein instabiles Selenium-Skript ist, das jedes Quartal bricht, kann Computer-Nutzung trotz höherer Laufkosten sinnvoll sein.

Interne Tools, die Sie nicht ändern können

Beispiele:

altes CRM
Legacy-ERP
SharePoint-Dashboard
internes Admin-Panel ohne API

Wenn Sie keine Integration liefern können und kein iPaaS-Budget existiert, kann eine Screenshot-Schleife eine pragmatische Lösung sein.

Einmalige Operator-Aufgaben

Beispiel:

Recherchiere diese 50 Wettbewerber und füge die Highlights in Notion ein.

Das ist möglicherweise kein Workflow, der einen stabilen API-Vertrag braucht. Für einmalige oder seltene Aufgaben können die Mehrkosten akzeptabel sein.

Scraping hinter fremden Oberflächen

Bei Anfragen wie „scrape diese Website mit Computer-Nutzung“ ist nicht nur der Preis relevant. Prüfen Sie zuerst Nutzungsbedingungen, Rechte und Zugriffserlaubnis. Die Token-Kosten sind hier oft das kleinste Problem.

Entscheidungsrahmenwerk

Prüfen Sie vor jeder Computer-Nutzung diese vier Fragen:

Prüfung	Wenn ja	Wenn nein
Existiert eine dokumentierte API?	Nutzen Sie die API.	Weiter prüfen.
Können Sie einen schlanken serverseitigen Adapter für einen privaten Endpunkt bauen?	Adapter erstellen und als JSON-Tool bereitstellen.	Weiter prüfen.
Ist die Aufgabe einmalig oder geringvolumig (<100 Läufe/Tag)?	Computer-Nutzung ist akzeptabel.	Weiter prüfen.
Sind 30-50x Token-Kosten pro Lauf akzeptabel?	Computer-Nutzung.	Stoppen und API-Zugang verhandeln.

In den meisten realen Workflows scheitert Computer-Nutzung bereits an Prüfung eins oder zwei.

Wie strukturierte APIs in einem Agenten aussehen

Beispiel: Der Agent soll „fehlgeschlagene Zahlungen von gestern“ abrufen.

Die strukturierte Variante definiert zuerst ein Tool-Schema:

import json
from openai import OpenAI

client = OpenAI()

tools = [{
    "type": "function",
    "function": {
        "name": "list_failed_payments",
        "description": "List failed payments in a date range",
        "parameters": {
            "type": "object",
            "properties": {
                "start": {"type": "string", "format": "date"},
                "end": {"type": "string", "format": "date"}
            },
            "required": ["start", "end"]
        }
    }
}]

resp = client.chat.completions.create(
    model="gpt-5.5",
    messages=[
        {
            "role": "user",
            "content": "Show yesterday's failed payments."
        }
    ],
    tools=tools,
    tool_choice="auto"
)

call = resp.choices[0].message.tool_calls[0]
args = json.loads(call.function.arguments)

payments = stripe.PaymentIntent.list(
    created={
        "gte": args["start"],
        "lte": args["end"]
    },
    limit=100
)

Der Agent sieht kein Dashboard. Er erzeugt nur strukturierte Argumente.

Die Computer-Nutzungs-Variante müsste dagegen:

Browser starten
Bei Stripe anmelden
Dashboard-Screenshot analysieren
Datumsauswahl anklicken
neuen Screenshot analysieren
Zeitraum auswählen
Filter für fehlgeschlagene Zahlungen setzen
scrollen
Werte aus Pixeln extrahieren

Jeder Schritt erzeugt neue Screenshot-Token. Zwölf Runden sind schnell erreicht.

Den strukturierten Pfad mit Apidog gestalten

Teams greifen oft nicht wegen technischer Notwendigkeit zu Computer-Nutzung, sondern weil keine saubere Tool-Oberfläche für den Agenten existiert. Genau dort hilft Apidog.

Schritt 1: Agentenoperationen als Endpunkte modellieren

Erstellen Sie in Apidog ein Projekt und definieren Sie nur die Operationen, die der Agent wirklich braucht.

Beispiele:

POST /invoices/search
POST /deals/update-status
POST /messages/send
GET /payments/failed
POST /tickets/close

Eine kleine Menge gut benannter Endpunkte ersetzt oft große Teile einer Browser-Automation.

Schritt 2: OpenAPI-Schema exportieren

Apidog generiert aus der Designansicht ein OpenAPI-3.1-Dokument. Dieses Schema wird zur Tool-Oberfläche für den Agenten.

Viele Agenten-Frameworks können OpenAPI direkt nutzen:

OpenAI tools
Anthropic Tool Use
LangChain OpenAPI Loader
DeepSeek Tool Calling

Schritt 3: Mock-Server aktivieren

Aktivieren Sie den Apidog-Mock-Server und lassen Sie den Agenten gegen Mock-URLs laufen.

Vorteile:

keine Produktionsdaten
keine Seiteneffekte
reproduzierbare Antworten
geringere Kosten während der Entwicklung
schnelleres Debugging

Dasselbe Pattern wird im Apidog-Leitfaden zur Contract-First-Entwicklung beschrieben.

Schritt 4: Requests und Responses vergleichen

Apidog zeichnet Anfragen und Antworten auf. Vergleichen Sie einen erfolgreichen Lauf mit einem fehlerhaften Lauf:

Wurde das richtige Tool gewählt?
Waren die Argumente valide?
Hat der Mock anders geantwortet als Produktion?
Fehlt ein Endpunkt?
Ist das Schema zu ungenau?

So debuggen Sie Agenten-Flows auf API-Ebene statt auf Screenshot-Ebene.

Schritt 5: Bereitstellen und versionieren

Das Apidog-Projekt dient gleichzeitig als:

API-Design
OpenAPI-Schema
Mock-Server
Testumgebung
Dokumentation
QA-Basis

Behandeln Sie Agenten-Tools wie öffentliche APIs: versioniert, getestet und dokumentiert.

Hybrid: Wenn Sie beide Wege benötigen

Produktionsagenten sind häufig hybrid.

Ein realistischer Aufbau:

90 Prozent der Operationen laufen über strukturierte Tools.
10 Prozent laufen über Computer-Nutzung für Legacy-Portale.
Ein Router entscheidet, welcher Pfad verwendet wird.

Beispiel für eine Router-Regel:

Wenn die gewünschte Operation in known_tools existiert, rufe das strukturierte Tool auf.
Wenn kein passendes Tool existiert, übergib die Aufgabe an den Browser-Agenten.

Anthropic Claude 4.5 und OpenAI GPT-5.5 können dieses Routing zuverlässig übernehmen. Dasselbe Muster lässt sich auch mit DeepSeek V4 umsetzen. Die Request-Form wird im Leitfaden wie man die DeepSeek V4 API verwendet gezeigt.

Wichtig: Messen Sie beide Pfade separat.

Erwartetes Kostenprofil:

strukturierte Tools: hohes Volumen, niedrige Kosten
Computer-Nutzung: niedriges Volumen, hohe Kosten

Wenn der Browser-Fallback plötzlich viel Volumen bekommt, fehlt wahrscheinlich ein Endpunkt in Ihrer Tool-Oberfläche.

Häufige Fehler

Fehler 1: Kein striktes Schema definieren

Nur mit Text-Prompts zu arbeiten, ist fragil. Definieren Sie immer ein JSON-Schema.

Schlecht:

Wenn der Nutzer eine Zahlung sucht, finde die passenden Daten.

Besser:

{
  "type": "object",
  "properties": {
    "customer_id": {"type": "string"},
    "status": {
      "type": "string",
      "enum": ["succeeded", "failed", "pending"]
    },
    "from": {"type": "string", "format": "date"},
    "to": {"type": "string", "format": "date"}
  },
  "required": ["status", "from", "to"]
}

Fehler 2: Den Agenten das Schema zur Laufzeit entwerfen lassen

Ein Schema ist eine Produktoberfläche. Entwerfen Sie es in Apidog, versionieren Sie es und behandeln Sie Änderungen wie API-Änderungen.

Selbstmodifizierende Schemas führen schnell zu Produktionsfehlern.

Fehler 3: Nur Tokens statt Kosten beobachten

Screenshot-Token werden in vielen Observability-Tools anders ausgewiesen als Text-Token. Prüfen Sie die Abrechnungskonsole Ihres Modellanbieters, nicht nur Ihr Tracing-Dashboard.

Fehler 4: Computer-Nutzung mit RPA verwechseln

RPA klickt geskriptet auf bekannte DOM-Elemente.

Computer-Nutzung entscheidet bei jedem Screenshot neu, was zu tun ist.

RPA ist günstiger und wiederholbarer. Computer-Nutzung ist flexibler, aber teurer. Nutzen Sie nicht Computer-Nutzung, wenn ein Playwright- oder Puppeteer-Skript reicht.

Fehler 5: Latenz ignorieren

Eine 45x-Token-Rechnung ist teuer. Noch problematischer ist oft die Wartezeit. Eine 60-Sekunden-Screenshot-Schleife passt selten in einen interaktiven Nutzerfluss.

Alternativen zur Computer-Nutzung

Wenn ein Anbieter keine öffentliche API hat, gibt es Zwischenlösungen.

1. Headless-Browser-Skripte

Tools:

Playwright
Puppeteer
Selenium

Vorteil: Nach der Entwicklung geringe Laufkosten.

Nachteil: Bricht, wenn sich die UI ändert.

2. Zapier- oder Make-Konnektoren

Manchmal hat der Anbieter keine gute öffentliche API-Dokumentation, aber fertige iPaaS-Konnektoren. Dann können Sie Integrationsaufwand einkaufen statt selbst bauen.

3. Private JSON-Endpunkte

Viele Dashboards sprechen intern mit JSON-Endpunkten. Über den Netzwerk-Tab der DevTools lassen sich diese Endpunkte identifizieren.

Wenn die Nutzung zulässig ist, können Sie sie in Apidog dokumentieren und als semi-stabile interne API behandeln. Ein ähnliches Vorgehen wird im Artikel API-Testen ohne Postman beschrieben.

Computer-Nutzung sollte der letzte Ausweg sein, nicht die Standardlösung.

Praxisbeispiele

Ein Fintech-Compliance-Team ersetzte einen 6-stufigen Stripe-Bericht, der Computer-Nutzung erforderte, durch drei strukturierte Aufrufe. Die Token-Kosten sanken um 92 Prozent, die Laufzeit von 41 auf 2 Sekunden.
Ein B2B-SaaS-Support-Agent nutzte Computer-Nutzung nur für ein Beschaffungsportal ohne API. Alle anderen Operationen liefen über OpenAPI-Tool-Aufrufe, die in Apidog entworfen wurden. Die monatlichen Token-Ausgaben sanken von 4.200 $ auf 310 $.
Ein Einzelgründer nutzte Computer-Nutzung einmal pro Woche, um ein Notion-Dashboard aus einem Legacy-ERP zu aktualisieren. Die 45x-Kosten waren bei einem wöchentlichen Lauf nur wenige Cents. Eine vollständige Integration hätte Wochen gedauert.

Fazit

Die 45x-Zahl ist realistisch genug, um Ihre Tool-Strategie zu beeinflussen.

Standardisieren Sie auf strukturierte APIs, die in Apidog entworfen, gemockt und getestet werden. Nutzen Sie Computer-Nutzung nur, wenn keine API existiert und der Workflow selten genug läuft, dass die Token-Kosten akzeptabel bleiben.

Fünf konkrete Regeln:

Nutzen Sie APIs, sobald ein dokumentierter Endpunkt existiert.
Definieren Sie für jedes Agenten-Tool ein striktes JSON-Schema.
Mocken Sie Tool-Endpunkte vor dem Live-Test.
Trennen Sie API- und Browser-Kosten in Ihrer Observability.
Bauen Sie neue Endpunkte, wenn der Agent häufig auf den Browser-Fallback ausweicht.

Nächster Schritt: Öffnen Sie Apidog, erstellen Sie ein Projekt für die Tool-Oberfläche Ihres Agenten und aktivieren Sie den Mock-Server. In kurzer Zeit sehen Sie, ob der geplante Computer-Nutzungs-Workflow auf zwei strukturierte API-Aufrufe reduziert werden kann.

FAQ

Ist Computer-Nutzung jemals günstiger als eine strukturierte API?

Nicht pro Lauf. Screenshot-Token dominieren die Kosten. Computer-Nutzung kann nur insgesamt günstiger sein, wenn die Integrationskosten höher wären als die Betriebskosten über die gesamte Lebensdauer. Das gilt vor allem für seltene Workflows ohne verfügbare API.

Wie mocke ich eine JSON-Tool-Oberfläche für einen Agenten?

Entwerfen Sie die Endpunkte in Apidog, aktivieren Sie den integrierten Mock-Server und konfigurieren Sie Ihren Agenten auf die Mock-URL. Jede Anfrage liefert realistische JSON-Antworten ohne Produktionsrisiko. Der Workflow wird auch in API-Test-Tools für QA-Ingenieure behandelt.

Kann ich OpenAPI für Tool-Aufrufe in jedem Modell verwenden?

Ja. OpenAI tools, Anthropic tool_use und DeepSeek V4 Tool Calling können mit OpenAPI-3.1-Schemas arbeiten. Apidog exportiert diese Schemas sauber. Siehe wie man die DeepSeek V4 API verwendet.

Unterstützt GPT-5.5 noch Computer-Nutzung?

OpenAI liefert Computer-Nutzung über Operator und über die Responses API. Das Kostenprofil ähnelt Anthropic bei vergleichbaren Screenshot-Schleifen. Die Empfehlung bleibt unabhängig vom Anbieter gleich: API zuerst, Browser nur als Fallback.

Was ist mit Skyvern, Browser-Nutzung und anderen Open-Source-Agenten?

Die Rechnung bleibt ähnlich. Günstigere Modelle senken den Preis pro Aufruf, aber Rundenanzahl und Screenshot-Größe bleiben das Problem. Wo APIs existieren, sind strukturierte Aufrufe weiterhin deutlich günstiger und zuverlässiger.

Woher weiß ich, wann für eine Agentenaufgabe ein Endpunkt fehlt?

Beobachten Sie, wann der Agent auf den Browser-Fallback ausweicht oder Tool-Aufrufe ablehnt. Wenn das wiederholt passiert, fehlt wahrscheinlich ein Endpunkt. Fügen Sie ihn in Apidog hinzu, exportieren Sie das Schema neu und lassen Sie den Agenten den strukturierten Pfad verwenden.

DEV Community