Die moderne Browserautomatisierung entwickelt sich rasant weiter: Statt spröder Selenium-Skripte können Sie heute KI-Agenten bauen, die Websites öffnen, Formulare bedienen, Daten extrahieren und mehrstufige Workflows über natürliche Sprache ausführen. In diesem Leitfaden richten Sie dafür einen lokalen Stack aus Browser Use, Ollama und DeepSeek ein und testen ihn mit einem Python-Agenten.
Probieren Sie Apidog noch heute aus
Warum Browser Use, Ollama und DeepSeek?
Der Stack besteht aus drei Komponenten:
- Browser Use: Python-Paket zur Orchestrierung von Browseraktionen wie Navigieren, Klicken und Extrahieren.
- Ollama: Lokaler LLM-Server für Modellinferenz auf Ihrer eigenen Hardware.
- DeepSeek: Reasoning-Modell, das High-Level-Anweisungen in ausführbare Browserschritte übersetzt.
Damit können Sie Agenten bauen, die:
- Web-Navigation und Datenextraktion automatisieren
- Formulare ausfüllen und mit dynamischen Seiten interagieren
- mehrstufige Aufgaben aus natürlichsprachlichen Prompts ableiten
Voraussetzungen
Prüfen Sie zuerst Ihre lokale Umgebung:
- Python 3.11+
python --version
- Ollama: Download über ollama.com
- Node.js: erforderlich für Playwright
node --version
- Git
- Hardware: mindestens 4 CPU-Kerne, 16 GB RAM und ca. 12 GB freier Speicherplatz für DeepSeek. Eine GPU ist optional, aber für größere Modelle hilfreich.
Projekt einrichten
1. Projektordner erstellen
mkdir browser-use-agent
cd browser-use-agent
2. Browser Use Repository klonen
git clone https://github.com/browser-use/browser-use.git
cd browser-use
3. Virtuelle Python-Umgebung erstellen
python -m venv venv
Aktivieren Sie die Umgebung:
# macOS/Linux
source venv/bin/activate
# Windows
venv\Scripts\activate
Wenn die Umgebung aktiv ist, sehen Sie üblicherweise (venv) im Terminal.
4. Projekt in VS Code öffnen
code .
Alternativ können Sie jeden anderen Python-fähigen Editor verwenden.
Ollama und DeepSeek lokal installieren
1. Ollama installieren
Laden Sie Ollama von ollama.com herunter und prüfen Sie danach die Installation:
ollama --version
2. DeepSeek-Modell herunterladen
Für Reasoning-Aufgaben verwenden Sie das DeepSeek-Seed-Modell:
ollama pull deepseek/seed
Hinweis: Das Modell ist ungefähr 12 GB groß. Wenn Speicher oder GPU-Leistung begrenzt sind, können Sie alternativ ein kleineres Modell wie qwen2.5:14b testen.
Prüfen Sie anschließend die verfügbaren Modelle:
ollama list
Suchen Sie nach deepseek/seed, deepseek-r1 oder dem Modell, das Sie installiert haben.
Browser Use und Abhängigkeiten installieren
1. Browser Use installieren
Führen Sie den folgenden Befehl innerhalb der aktivierten virtuellen Umgebung aus:
pip install . ."[dev]"
2. LangChain-Integration für Ollama installieren
pip install langchain langchain-ollama
Diese Pakete verbinden Ihren Browser-Agenten mit dem lokalen Ollama-Modell.
3. Playwright installieren
playwright install
Falls Playwright zusätzliche Systemabhängigkeiten benötigt:
playwright install-deps
Wenn Fehler auftreten, prüfen Sie zuerst, ob Ihre virtuelle Umgebung aktiv ist und Python 3.11+ verwendet wird.
Ollama-Server starten
Starten Sie Ollama in einem separaten Terminal:
ollama serve
Der lokale LLM-Server läuft anschließend unter:
http://localhost:11434
Lassen Sie diesen Prozess während der Ausführung Ihres Agenten geöffnet.
Beispiel: KI-Agent für eine Google-Wettersuche
In diesem Beispiel automatisieren Sie eine einfache Aufgabe: Der Agent soll Google verwenden und das Wetter in Boston, Massachusetts, abrufen.
Erstellen Sie im Projektordner eine Datei test.py:
import asyncio
from browser_use import Agent
from langchain_ollama import ChatOllama
async def run_search() -> str:
agent = Agent(
task="Use Google to find the weather in Boston, Massachusetts",
llm=ChatOllama(
model="deepseek/seed",
num_ctx=32000,
),
max_actions_per_step=3,
tool_call_in_content=False,
)
result = await agent.run(max_steps=15)
return result
async def main():
result = await run_search()
print("\n\n", result)
if __name__ == "__main__":
asyncio.run(main())
Python-Interpreter in VS Code auswählen
Wenn Sie VS Code verwenden:
- Öffnen Sie die Command Palette mit
Strg+PoderBefehl+P. - Geben Sie ein:
> Select Python Interpreter
- Wählen Sie den Interpreter aus Ihrer virtuellen Umgebung aus.
Agent ausführen
python test.py
Der Agent startet einen Browser, sucht nach dem Wetter in Boston und gibt das Ergebnis im Terminal aus.
Wenn der Agent fehlschlägt, prüfen Sie:
ollama serve
Außerdem sollte Port 11434 erreichbar sein. Ollama-Logs finden Sie hier:
~/.ollama/logs
Apidog integrieren: API-Tests für Browser-KI-Agenten
Wenn Ihr Browser-KI-Agent mit Web-APIs interagiert, etwa durch API-gesteuerte Workflows oder das Extrahieren von Daten aus Endpunkten, sollten Sie die zugrunde liegenden API-Verträge validieren.
Apidog kann dabei helfen, die API-Ebene Ihrer Automatisierung abzusichern:
- API-Tests prüfen, ob Endpunkte wie erwartet funktionieren.
- Testfälle können für Backend-Workflows verwaltet werden.
- API-Verträge lassen sich über Staging- und Produktionsumgebungen hinweg validieren.
Das ist besonders relevant, wenn Ihr Browser-Agent nicht nur UI-Schritte ausführt, sondern auf stabile API-Antworten angewiesen ist.
Beginnen Sie kostenlos mit Apidog, um Ihre Browser-KI-Workflows robuster zu machen.
API-Vertragstests mit Apidog
Tipps für effektives Prompt Engineering
Gute Browser-Automatisierung hängt stark von präzisen Prompts ab.
Spezifische Aufgaben formulieren
Besser:
Gehe zu kayak.com, suche Flüge von Zürich nach Peking vom 25.12.2025 bis 02.02.2026 und sortiere nach Preis.
Schlechter:
Finde Flüge.
Mehrstufige Aufgaben klar beschreiben
Beispiel:
Besuche LinkedIn, suche nach Machine-Learning-Jobs, speichere die Job-Links in einer Datei und bewirb dich auf die Top 3.
Prompts iterativ verbessern
Wenn das Ergebnis nicht passt:
- Machen Sie den Prompt konkreter.
- Reduzieren Sie die Aufgabe auf kleinere Schritte.
- Testen Sie Varianten, bevor Sie den Workflow produktiv verwenden.
Debugging und Fehlerbehebung
Ollama-Logs prüfen
~/.ollama/logs
Nutzen Sie die Logs, um Modellfehler oder Verbindungsprobleme zu diagnostizieren.
Playwright-Ausgabe beobachten
Playwright schreibt Aktionen und Fehler direkt ins Terminal. Achten Sie auf:
- fehlgeschlagene Selektoren
- Timeouts
- Browser-Startprobleme
- fehlende Systemabhängigkeiten
Modellleistung verbessern
Wenn DeepSeek zu langsam läuft:
- testen Sie ein kleineres Modell
- reduzieren Sie die Komplexität des Prompts
- verringern Sie
max_steps - verwenden Sie GPU-Beschleunigung, falls verfügbar
Andere Workflows automatisieren
Ändern Sie einfach den task-String:
task="Open GitHub, search for browser-use repositories, and extract the top 5 repository names and star counts"
Oder:
task="Open a documentation website, search for authentication, and summarize the relevant setup steps"
Häufig gestellte Fragen
F1. Was ist Browser Use?
Browser Use ist ein Python-Paket für KI-gesteuerte Browserautomatisierung mit Playwright.
GitHub
F2. Benötige ich eine GPU?
Nein, für kleinere Modelle ist keine GPU erforderlich. Eine GPU kann größere Modelle jedoch deutlich beschleunigen.
F3. Kann ich andere Modelle als DeepSeek verwenden?
Ja. Jedes reasoning-fähige Modell, das von Ollama unterstützt wird, kann funktionieren.
GitHub
F4. Werden meine Daten lokal verarbeitet?
Ja. Wenn Sie Ollama lokal betreiben, bleiben Daten und Inferenz auf Ihrem Rechner, sofern Sie den Stack nicht anders konfigurieren.
F5. Kann ich Logins und mehrstufige Aufgaben automatisieren?
Ja. Beschreiben Sie die Aufgabe möglichst präzise, und der Agent zerlegt sie in einzelne Browserschritte.
Fazit
Mit Python, Browser Use, Ollama und DeepSeek können Sie lokale KI-Agenten bauen, die echte Browser über natürliche Sprache automatisieren. Der Stack eignet sich für QA, Backend-Integration, API-nahe Workflows und explorative Automatisierung.
Wenn Ihre Agenten mit APIs interagieren, ergänzen Sie den Workflow um API-Validierung mit Apidog. So stellen Sie sicher, dass nicht nur die UI-Automatisierung funktioniert, sondern auch die darunterliegenden Schnittstellen stabil bleiben.





Top comments (0)