DEV Community

Cover image for KI-gesteuerte Browser-Automatisierung mit Python, Ollama & DeepSeek erstellen
Emre Demir
Emre Demir

Posted on • Originally published at apidog.com

KI-gesteuerte Browser-Automatisierung mit Python, Ollama & DeepSeek erstellen

Die moderne Browserautomatisierung entwickelt sich rasant weiter: Statt spröder Selenium-Skripte können Sie heute KI-Agenten bauen, die Websites öffnen, Formulare bedienen, Daten extrahieren und mehrstufige Workflows über natürliche Sprache ausführen. In diesem Leitfaden richten Sie dafür einen lokalen Stack aus Browser Use, Ollama und DeepSeek ein und testen ihn mit einem Python-Agenten.

Probieren Sie Apidog noch heute aus

Warum Browser Use, Ollama und DeepSeek?

Der Stack besteht aus drei Komponenten:

  • Browser Use: Python-Paket zur Orchestrierung von Browseraktionen wie Navigieren, Klicken und Extrahieren.
  • Ollama: Lokaler LLM-Server für Modellinferenz auf Ihrer eigenen Hardware.
  • DeepSeek: Reasoning-Modell, das High-Level-Anweisungen in ausführbare Browserschritte übersetzt.

Damit können Sie Agenten bauen, die:

  • Web-Navigation und Datenextraktion automatisieren
  • Formulare ausfüllen und mit dynamischen Seiten interagieren
  • mehrstufige Aufgaben aus natürlichsprachlichen Prompts ableiten

Voraussetzungen

Prüfen Sie zuerst Ihre lokale Umgebung:

  • Python 3.11+
python --version
Enter fullscreen mode Exit fullscreen mode
  • Ollama: Download über ollama.com
  • Node.js: erforderlich für Playwright
node --version
Enter fullscreen mode Exit fullscreen mode
  • Git
  • Hardware: mindestens 4 CPU-Kerne, 16 GB RAM und ca. 12 GB freier Speicherplatz für DeepSeek. Eine GPU ist optional, aber für größere Modelle hilfreich.

Projekt einrichten

1. Projektordner erstellen

mkdir browser-use-agent
cd browser-use-agent
Enter fullscreen mode Exit fullscreen mode

2. Browser Use Repository klonen

git clone https://github.com/browser-use/browser-use.git
cd browser-use
Enter fullscreen mode Exit fullscreen mode

3. Virtuelle Python-Umgebung erstellen

python -m venv venv
Enter fullscreen mode Exit fullscreen mode

Aktivieren Sie die Umgebung:

# macOS/Linux
source venv/bin/activate

# Windows
venv\Scripts\activate
Enter fullscreen mode Exit fullscreen mode

Wenn die Umgebung aktiv ist, sehen Sie üblicherweise (venv) im Terminal.

4. Projekt in VS Code öffnen

code .
Enter fullscreen mode Exit fullscreen mode

Alternativ können Sie jeden anderen Python-fähigen Editor verwenden.

Ollama und DeepSeek lokal installieren

1. Ollama installieren

Laden Sie Ollama von ollama.com herunter und prüfen Sie danach die Installation:

ollama --version
Enter fullscreen mode Exit fullscreen mode

Ollama herunterladen

2. DeepSeek-Modell herunterladen

Für Reasoning-Aufgaben verwenden Sie das DeepSeek-Seed-Modell:

ollama pull deepseek/seed
Enter fullscreen mode Exit fullscreen mode

Hinweis: Das Modell ist ungefähr 12 GB groß. Wenn Speicher oder GPU-Leistung begrenzt sind, können Sie alternativ ein kleineres Modell wie qwen2.5:14b testen.

Prüfen Sie anschließend die verfügbaren Modelle:

ollama list
Enter fullscreen mode Exit fullscreen mode

Suchen Sie nach deepseek/seed, deepseek-r1 oder dem Modell, das Sie installiert haben.

DeepSeek Modell herunterladen

Browser Use und Abhängigkeiten installieren

1. Browser Use installieren

Führen Sie den folgenden Befehl innerhalb der aktivierten virtuellen Umgebung aus:

pip install . ."[dev]"
Enter fullscreen mode Exit fullscreen mode

2. LangChain-Integration für Ollama installieren

pip install langchain langchain-ollama
Enter fullscreen mode Exit fullscreen mode

Diese Pakete verbinden Ihren Browser-Agenten mit dem lokalen Ollama-Modell.

3. Playwright installieren

playwright install
Enter fullscreen mode Exit fullscreen mode

Falls Playwright zusätzliche Systemabhängigkeiten benötigt:

playwright install-deps
Enter fullscreen mode Exit fullscreen mode

Wenn Fehler auftreten, prüfen Sie zuerst, ob Ihre virtuelle Umgebung aktiv ist und Python 3.11+ verwendet wird.

Ollama-Server starten

Starten Sie Ollama in einem separaten Terminal:

ollama serve
Enter fullscreen mode Exit fullscreen mode

Der lokale LLM-Server läuft anschließend unter:

http://localhost:11434
Enter fullscreen mode Exit fullscreen mode

Lassen Sie diesen Prozess während der Ausführung Ihres Agenten geöffnet.

Beispiel: KI-Agent für eine Google-Wettersuche

In diesem Beispiel automatisieren Sie eine einfache Aufgabe: Der Agent soll Google verwenden und das Wetter in Boston, Massachusetts, abrufen.

Erstellen Sie im Projektordner eine Datei test.py:

import asyncio
from browser_use import Agent
from langchain_ollama import ChatOllama


async def run_search() -> str:
    agent = Agent(
        task="Use Google to find the weather in Boston, Massachusetts",
        llm=ChatOllama(
            model="deepseek/seed",
            num_ctx=32000,
        ),
        max_actions_per_step=3,
        tool_call_in_content=False,
    )

    result = await agent.run(max_steps=15)
    return result


async def main():
    result = await run_search()
    print("\n\n", result)


if __name__ == "__main__":
    asyncio.run(main())
Enter fullscreen mode Exit fullscreen mode

Python-Interpreter in VS Code auswählen

Wenn Sie VS Code verwenden:

  1. Öffnen Sie die Command Palette mit Strg+P oder Befehl+P.
  2. Geben Sie ein:
> Select Python Interpreter
Enter fullscreen mode Exit fullscreen mode
  1. Wählen Sie den Interpreter aus Ihrer virtuellen Umgebung aus.

Agent ausführen

python test.py
Enter fullscreen mode Exit fullscreen mode

Der Agent startet einen Browser, sucht nach dem Wetter in Boston und gibt das Ergebnis im Terminal aus.

Browser Use Suche

Wenn der Agent fehlschlägt, prüfen Sie:

ollama serve
Enter fullscreen mode Exit fullscreen mode

Außerdem sollte Port 11434 erreichbar sein. Ollama-Logs finden Sie hier:

~/.ollama/logs
Enter fullscreen mode Exit fullscreen mode

Browser Use Suchergebnis

Apidog integrieren: API-Tests für Browser-KI-Agenten

Wenn Ihr Browser-KI-Agent mit Web-APIs interagiert, etwa durch API-gesteuerte Workflows oder das Extrahieren von Daten aus Endpunkten, sollten Sie die zugrunde liegenden API-Verträge validieren.

Apidog kann dabei helfen, die API-Ebene Ihrer Automatisierung abzusichern:

  • API-Tests prüfen, ob Endpunkte wie erwartet funktionieren.
  • Testfälle können für Backend-Workflows verwaltet werden.
  • API-Verträge lassen sich über Staging- und Produktionsumgebungen hinweg validieren.

Das ist besonders relevant, wenn Ihr Browser-Agent nicht nur UI-Schritte ausführt, sondern auf stabile API-Antworten angewiesen ist.

Beginnen Sie kostenlos mit Apidog, um Ihre Browser-KI-Workflows robuster zu machen.

API-Vertragstests mit Apidog

API-Vertragstests mit Apidog

Tipps für effektives Prompt Engineering

Gute Browser-Automatisierung hängt stark von präzisen Prompts ab.

Spezifische Aufgaben formulieren

Besser:

Gehe zu kayak.com, suche Flüge von Zürich nach Peking vom 25.12.2025 bis 02.02.2026 und sortiere nach Preis.
Enter fullscreen mode Exit fullscreen mode

Schlechter:

Finde Flüge.
Enter fullscreen mode Exit fullscreen mode

Mehrstufige Aufgaben klar beschreiben

Beispiel:

Besuche LinkedIn, suche nach Machine-Learning-Jobs, speichere die Job-Links in einer Datei und bewirb dich auf die Top 3.
Enter fullscreen mode Exit fullscreen mode

Prompts iterativ verbessern

Wenn das Ergebnis nicht passt:

  1. Machen Sie den Prompt konkreter.
  2. Reduzieren Sie die Aufgabe auf kleinere Schritte.
  3. Testen Sie Varianten, bevor Sie den Workflow produktiv verwenden.

Debugging und Fehlerbehebung

Ollama-Logs prüfen

~/.ollama/logs
Enter fullscreen mode Exit fullscreen mode

Nutzen Sie die Logs, um Modellfehler oder Verbindungsprobleme zu diagnostizieren.

Playwright-Ausgabe beobachten

Playwright schreibt Aktionen und Fehler direkt ins Terminal. Achten Sie auf:

  • fehlgeschlagene Selektoren
  • Timeouts
  • Browser-Startprobleme
  • fehlende Systemabhängigkeiten

Modellleistung verbessern

Wenn DeepSeek zu langsam läuft:

  • testen Sie ein kleineres Modell
  • reduzieren Sie die Komplexität des Prompts
  • verringern Sie max_steps
  • verwenden Sie GPU-Beschleunigung, falls verfügbar

Andere Workflows automatisieren

Ändern Sie einfach den task-String:

task="Open GitHub, search for browser-use repositories, and extract the top 5 repository names and star counts"
Enter fullscreen mode Exit fullscreen mode

Oder:

task="Open a documentation website, search for authentication, and summarize the relevant setup steps"
Enter fullscreen mode Exit fullscreen mode

Häufig gestellte Fragen

F1. Was ist Browser Use?

Browser Use ist ein Python-Paket für KI-gesteuerte Browserautomatisierung mit Playwright.

GitHub

F2. Benötige ich eine GPU?

Nein, für kleinere Modelle ist keine GPU erforderlich. Eine GPU kann größere Modelle jedoch deutlich beschleunigen.

F3. Kann ich andere Modelle als DeepSeek verwenden?

Ja. Jedes reasoning-fähige Modell, das von Ollama unterstützt wird, kann funktionieren.

GitHub

F4. Werden meine Daten lokal verarbeitet?

Ja. Wenn Sie Ollama lokal betreiben, bleiben Daten und Inferenz auf Ihrem Rechner, sofern Sie den Stack nicht anders konfigurieren.

F5. Kann ich Logins und mehrstufige Aufgaben automatisieren?

Ja. Beschreiben Sie die Aufgabe möglichst präzise, und der Agent zerlegt sie in einzelne Browserschritte.

Fazit

Mit Python, Browser Use, Ollama und DeepSeek können Sie lokale KI-Agenten bauen, die echte Browser über natürliche Sprache automatisieren. Der Stack eignet sich für QA, Backend-Integration, API-nahe Workflows und explorative Automatisierung.

Wenn Ihre Agenten mit APIs interagieren, ergänzen Sie den Workflow um API-Validierung mit Apidog. So stellen Sie sicher, dass nicht nur die UI-Automatisierung funktioniert, sondern auch die darunterliegenden Schnittstellen stabil bleiben.

Top comments (0)