Emre Demir

Posted on Jun 23 • Originally published at apidog.com

KI-gesteuerte Browser-Automatisierung mit Python, Ollama & DeepSeek erstellen

Die moderne Browserautomatisierung entwickelt sich rasant weiter: Statt spröder Selenium-Skripte können Sie heute KI-Agenten bauen, die Websites öffnen, Formulare bedienen, Daten extrahieren und mehrstufige Workflows über natürliche Sprache ausführen. In diesem Leitfaden richten Sie dafür einen lokalen Stack aus Browser Use, Ollama und DeepSeek ein und testen ihn mit einem Python-Agenten.

Probieren Sie Apidog noch heute aus

Warum Browser Use, Ollama und DeepSeek?

Der Stack besteht aus drei Komponenten:

Browser Use: Python-Paket zur Orchestrierung von Browseraktionen wie Navigieren, Klicken und Extrahieren.
Ollama: Lokaler LLM-Server für Modellinferenz auf Ihrer eigenen Hardware.
DeepSeek: Reasoning-Modell, das High-Level-Anweisungen in ausführbare Browserschritte übersetzt.

Damit können Sie Agenten bauen, die:

Web-Navigation und Datenextraktion automatisieren
Formulare ausfüllen und mit dynamischen Seiten interagieren
mehrstufige Aufgaben aus natürlichsprachlichen Prompts ableiten

Voraussetzungen

Prüfen Sie zuerst Ihre lokale Umgebung:

Python 3.11+

python --version

Ollama: Download über ollama.com
Node.js: erforderlich für Playwright

node --version

Git
Hardware: mindestens 4 CPU-Kerne, 16 GB RAM und ca. 12 GB freier Speicherplatz für DeepSeek. Eine GPU ist optional, aber für größere Modelle hilfreich.

Projekt einrichten

1. Projektordner erstellen

mkdir browser-use-agent
cd browser-use-agent

2. Browser Use Repository klonen

git clone https://github.com/browser-use/browser-use.git
cd browser-use

3. Virtuelle Python-Umgebung erstellen

python -m venv venv

Aktivieren Sie die Umgebung:

# macOS/Linux
source venv/bin/activate

# Windows
venv\Scripts\activate

Wenn die Umgebung aktiv ist, sehen Sie üblicherweise (venv) im Terminal.

4. Projekt in VS Code öffnen

code .

Alternativ können Sie jeden anderen Python-fähigen Editor verwenden.

Ollama und DeepSeek lokal installieren

1. Ollama installieren

Laden Sie Ollama von ollama.com herunter und prüfen Sie danach die Installation:

ollama --version

2. DeepSeek-Modell herunterladen

Für Reasoning-Aufgaben verwenden Sie das DeepSeek-Seed-Modell:

ollama pull deepseek/seed

Hinweis: Das Modell ist ungefähr 12 GB groß. Wenn Speicher oder GPU-Leistung begrenzt sind, können Sie alternativ ein kleineres Modell wie qwen2.5:14b testen.

Prüfen Sie anschließend die verfügbaren Modelle:

ollama list

Suchen Sie nach deepseek/seed, deepseek-r1 oder dem Modell, das Sie installiert haben.

Browser Use und Abhängigkeiten installieren

1. Browser Use installieren

Führen Sie den folgenden Befehl innerhalb der aktivierten virtuellen Umgebung aus:

pip install . ."[dev]"

2. LangChain-Integration für Ollama installieren

pip install langchain langchain-ollama

Diese Pakete verbinden Ihren Browser-Agenten mit dem lokalen Ollama-Modell.

3. Playwright installieren

playwright install

Falls Playwright zusätzliche Systemabhängigkeiten benötigt:

playwright install-deps

Wenn Fehler auftreten, prüfen Sie zuerst, ob Ihre virtuelle Umgebung aktiv ist und Python 3.11+ verwendet wird.

Ollama-Server starten

Starten Sie Ollama in einem separaten Terminal:

ollama serve

Der lokale LLM-Server läuft anschließend unter:

http://localhost:11434

Lassen Sie diesen Prozess während der Ausführung Ihres Agenten geöffnet.

Beispiel: KI-Agent für eine Google-Wettersuche

In diesem Beispiel automatisieren Sie eine einfache Aufgabe: Der Agent soll Google verwenden und das Wetter in Boston, Massachusetts, abrufen.

Erstellen Sie im Projektordner eine Datei test.py:

import asyncio
from browser_use import Agent
from langchain_ollama import ChatOllama


async def run_search() -> str:
    agent = Agent(
        task="Use Google to find the weather in Boston, Massachusetts",
        llm=ChatOllama(
            model="deepseek/seed",
            num_ctx=32000,
        ),
        max_actions_per_step=3,
        tool_call_in_content=False,
    )

    result = await agent.run(max_steps=15)
    return result


async def main():
    result = await run_search()
    print("\n\n", result)


if __name__ == "__main__":
    asyncio.run(main())

Python-Interpreter in VS Code auswählen

Wenn Sie VS Code verwenden:

Öffnen Sie die Command Palette mit Strg+P oder Befehl+P.
Geben Sie ein:

> Select Python Interpreter

Wählen Sie den Interpreter aus Ihrer virtuellen Umgebung aus.

Agent ausführen

python test.py

Der Agent startet einen Browser, sucht nach dem Wetter in Boston und gibt das Ergebnis im Terminal aus.

Wenn der Agent fehlschlägt, prüfen Sie:

ollama serve

Außerdem sollte Port 11434 erreichbar sein. Ollama-Logs finden Sie hier:

~/.ollama/logs

Apidog integrieren: API-Tests für Browser-KI-Agenten

Wenn Ihr Browser-KI-Agent mit Web-APIs interagiert, etwa durch API-gesteuerte Workflows oder das Extrahieren von Daten aus Endpunkten, sollten Sie die zugrunde liegenden API-Verträge validieren.

Apidog kann dabei helfen, die API-Ebene Ihrer Automatisierung abzusichern:

API-Tests prüfen, ob Endpunkte wie erwartet funktionieren.
Testfälle können für Backend-Workflows verwaltet werden.
API-Verträge lassen sich über Staging- und Produktionsumgebungen hinweg validieren.

Das ist besonders relevant, wenn Ihr Browser-Agent nicht nur UI-Schritte ausführt, sondern auf stabile API-Antworten angewiesen ist.

Beginnen Sie kostenlos mit Apidog, um Ihre Browser-KI-Workflows robuster zu machen.

API-Vertragstests mit Apidog

Tipps für effektives Prompt Engineering

Gute Browser-Automatisierung hängt stark von präzisen Prompts ab.

Spezifische Aufgaben formulieren

Besser:

Gehe zu kayak.com, suche Flüge von Zürich nach Peking vom 25.12.2025 bis 02.02.2026 und sortiere nach Preis.

Schlechter:

Finde Flüge.

Mehrstufige Aufgaben klar beschreiben

Beispiel:

Besuche LinkedIn, suche nach Machine-Learning-Jobs, speichere die Job-Links in einer Datei und bewirb dich auf die Top 3.

Prompts iterativ verbessern

Wenn das Ergebnis nicht passt:

Machen Sie den Prompt konkreter.
Reduzieren Sie die Aufgabe auf kleinere Schritte.
Testen Sie Varianten, bevor Sie den Workflow produktiv verwenden.

Debugging und Fehlerbehebung

Ollama-Logs prüfen

~/.ollama/logs

Nutzen Sie die Logs, um Modellfehler oder Verbindungsprobleme zu diagnostizieren.

Playwright-Ausgabe beobachten

Playwright schreibt Aktionen und Fehler direkt ins Terminal. Achten Sie auf:

fehlgeschlagene Selektoren
Timeouts
Browser-Startprobleme
fehlende Systemabhängigkeiten

Modellleistung verbessern

Wenn DeepSeek zu langsam läuft:

testen Sie ein kleineres Modell
reduzieren Sie die Komplexität des Prompts
verringern Sie max_steps
verwenden Sie GPU-Beschleunigung, falls verfügbar

Andere Workflows automatisieren

Ändern Sie einfach den task-String:

task="Open GitHub, search for browser-use repositories, and extract the top 5 repository names and star counts"

Oder:

task="Open a documentation website, search for authentication, and summarize the relevant setup steps"

Häufig gestellte Fragen

F1. Was ist Browser Use?

Browser Use ist ein Python-Paket für KI-gesteuerte Browserautomatisierung mit Playwright.

GitHub

F2. Benötige ich eine GPU?

Nein, für kleinere Modelle ist keine GPU erforderlich. Eine GPU kann größere Modelle jedoch deutlich beschleunigen.

F3. Kann ich andere Modelle als DeepSeek verwenden?

Ja. Jedes reasoning-fähige Modell, das von Ollama unterstützt wird, kann funktionieren.

GitHub

F4. Werden meine Daten lokal verarbeitet?

Ja. Wenn Sie Ollama lokal betreiben, bleiben Daten und Inferenz auf Ihrem Rechner, sofern Sie den Stack nicht anders konfigurieren.

F5. Kann ich Logins und mehrstufige Aufgaben automatisieren?

Ja. Beschreiben Sie die Aufgabe möglichst präzise, und der Agent zerlegt sie in einzelne Browserschritte.

Fazit

Mit Python, Browser Use, Ollama und DeepSeek können Sie lokale KI-Agenten bauen, die echte Browser über natürliche Sprache automatisieren. Der Stack eignet sich für QA, Backend-Integration, API-nahe Workflows und explorative Automatisierung.

Wenn Ihre Agenten mit APIs interagieren, ergänzen Sie den Workflow um API-Validierung mit Apidog. So stellen Sie sicher, dass nicht nur die UI-Automatisierung funktioniert, sondern auch die darunterliegenden Schnittstellen stabil bleiben.

DEV Community