DEV Community

Cover image for Holo3: Das beste Computernutzungsmodell?
Emre Demir
Emre Demir

Posted on • Originally published at apidog.com

Holo3: Das beste Computernutzungsmodell?

TL;DR

H Company hat Holo3 am 31. März 2026 veröffentlicht – ein Mixture-of-Experts-Modell, das auf OSWorld-Verified 78,85 % erreicht. Damit setzt es einen neuen Benchmark für KI-gestützte Desktop-Computernutzung und schlägt GPT-5.4 sowie Opus 4.6 zu deutlich geringeren Kosten. Die API ist ab sofort verfügbar, die 35B-Variante gibt es Open-Weight auf HuggingFace unter Apache 2.0.

Teste Apidog noch heute

Die Lücke bei der Computernutzung, die die meisten Entwickler noch nicht geschlossen haben

API-Automatisierung und CI/CD laufen stabil – aber viele Workflows brechen an einer Hürde: Alte Unternehmenssoftware ohne API, Desktop-Programme vor REST, mehrstufige Prozesse über mehrere GUIs.

Klassische RPA-Tools (z.B. UiPath) lösen das mit fragilen Koordinaten-Skripten – wartungsintensiv und fehleranfällig. Oft bleibt nur manuelle Arbeit.

KI-basierte Computernutzung bricht diese Grenze auf: Modelle, die Screenshots interpretieren und Aktionen (Klicks, Tippen, Scrollen) ausführen, können jede GUI automatisieren – ganz ohne API. Holo3, veröffentlicht von H Company, ist aktuell das leistungsfähigste öffentlich verfügbare Modell für diese Aufgabenklasse.

💡 Tipp: Wenn du Automatisierungs-Workflows oder Test-Pipelines für Desktop-Software entwickelst, solltest du die Holo3-API kennen. Die nächsten Abschnitte zeigen, wie du Holo3-Aufrufe in deinen Workflow integrierst – inklusive Test und Mocking mit Apidog.

Was ist Holo3?

Holo3 ist ein KI-Modell für Computernutzung: Du gibst einen Screenshot und eine Aufgabenbeschreibung, das Modell liefert die dafür notwendigen Aktionen (z.B. Klick, Tastendruck, Scrollen) zurück. Nach jeder Aktion erfasst du erneut einen Screenshot und wiederholst den Zyklus, bis die Aufgabe abgeschlossen ist.

Holo3 Screenshot

Varianten von Holo3:

  • Holo3-122B-A10B: 122 Milliarden Parameter, 10 Milliarden aktiv (MoE). Nur als gehostete API verfügbar (hcompany.ai/holo-models-api). Setzt den Benchmark-Rekord.
  • Holo3-35B-A3B: 35 Milliarden Parameter, 3 Milliarden aktiv. Open-Weight auf HuggingFace (Apache 2.0), kostenlose API-Stufe, selbst hostbar.

MoE-Architektur: Nur ein Bruchteil der Parameter wird pro Token aktiviert – günstiger im Betrieb als die Parameterzahl erwarten lässt. H Company gibt an: Holo3-122B-A10B kostet pro Aufgabe weniger als GPT-5.4 und Opus 4.6.

OSWorld-Verified: Was der Benchmark misst

OSWorld-Verified ist der führende Benchmark für KI-Computernutzung. Im Unterschied zu klassischen Textbenchmarks prüft OSWorld echte Aufgaben auf echten Desktops – Erfolg wird durch den tatsächlichen Systemzustand nach Ausführung verifiziert.

Beispiele für Aufgaben:

  • Einzel-App: Datei öffnen, Formular ausfüllen, Daten kopieren
  • App-übergreifend: PDF auslesen, Tabelle updaten, E-Mail versenden
  • Multi-App-Sequenzen mit Kontext über mehrere Programme

Ergebnisse:

Holo3-122B-A10B erreicht 78,85 % – bisher waren >40 % Stand der Technik, führende Modelle von Anthropic/OpenAI lagen bei 60-65 %.

OSWorld Benchmark

Gerade bei schwierigen, mehrstufigen Multi-App-Tasks liegt Holo3 deutlich vorne.

Wie Holo3 trainiert wurde: Agentic Learning Flywheel

Statt statischer Demos nutzt H Company eine kontinuierliche Pipeline:

  1. Synthetische Navigationsdaten: Menschliche plus generierte Anweisungen erzeugen Szenarien.
  2. Out-of-Domain-Erweiterung: Automatische Szenario-Varianten für Grenzfälle.
  3. Kuratiertes Reinforcement Learning: Filterung & RL-Maximierung der Task-Completion-Raten.

Datenursprung: Die Synthetic Environment Factory erzeugt komplette Unternehmens-Apps samt verifizierbarer Aufgaben und End-to-End-Validierung. Das Modell trainiert an realistischen Business-Workflows.

Resultat: Holo3 schlägt größere Basismodelle (z.B. Qwen3.5) – nicht wegen Architektur, sondern Trainingsmethode.

So rufst du die Holo3 API auf

Die API nutzt einen Screenshot-Action-Loop. So gehst du vor:

1. Authentifizierung einrichten

# H Company Inference API base URL
https://api.hcompany.ai/v1

# Header
Authorization: Bearer YOUR_API_KEY
Content-Type: application/json
Enter fullscreen mode Exit fullscreen mode

API-Key unter hcompany.ai/holo-models-api abrufen. Die kostenlose Stufe deckt Holo3-35B-A3B ab.

2. Screenshot mit Task senden

import base64
import httpx

# Screenshot aufnehmen (z.B. mit pyautogui)
import pyautogui
screenshot = pyautogui.screenshot()
screenshot.save("/tmp/screen.png")

with open("/tmp/screen.png", "rb") as f:
    image_b64 = base64.b64encode(f.read()).decode()

response = httpx.post(
    "https://api.hcompany.ai/v1/computer-use",
    headers={"Authorization": "Bearer YOUR_API_KEY"},
    json={
        "model": "holo3-122b-a10b",
        "task": "Open the invoice folder and find the most recent PDF",
        "screenshot": image_b64,
        "screen_width": 1920,
        "screen_height": 1080
    }
)

action = response.json()
print(action)
Enter fullscreen mode Exit fullscreen mode

3. Aktion parsen & ausführen

Die API gibt strukturierte Aktionen zurück:

{
  "action_type": "click",
  "coordinate": [245, 380],
  "reasoning": "The invoice folder icon is visible at this position"
}
Enter fullscreen mode Exit fullscreen mode

Aktionstypen: click, double_click, right_click, type, key, scroll, screenshot_request, task_complete.

4. Schleife bis zur Fertigstellung

def run_computer_use_task(task: str, max_steps: int = 20):
    for step in range(max_steps):
        screenshot = capture_screen()
        response = call_holo3_api(task, screenshot)
        action = response["action"]

        if action["action_type"] == "task_complete":
            print(f"Done in {step + 1} steps")
            return response["result"]

        execute_action(action)

    raise TimeoutError("Task not completed within step limit")
Enter fullscreen mode Exit fullscreen mode

Holo3 API-Aufrufe mit Apidog testen

Für produktionsreife Automatisierung ist zuverlässiges Testing Pflicht. Apidog unterstützt dich dabei:

Endpunkt importieren:

Lege in Apidog eine HTTP-Anfrage zu https://api.hcompany.ai/v1/computer-use an. Den Authorization-Header als Umgebungsvariable speichern.

Antwortvalidierung:

Mit Apidogs Test-Assertions prüfst du die API-Struktur:

// In Apidog's post-response script
pm.test("Action type is valid", () => {
    const validActions = ["click", "type", "key", "scroll", "task_complete", "screenshot_request"];
    pm.expect(validActions).to.include(pm.response.json().action.action_type);
});

pm.test("Coordinates are within screen bounds", () => {
    const action = pm.response.json().action;
    if (action.coordinate) {
        pm.expect(action.coordinate[0]).to.be.within(0, 1920);
        pm.expect(action.coordinate[1]).to.be.within(0, 1080);
    }
});
Enter fullscreen mode Exit fullscreen mode

Mocking der API:

Mit Apidogs Smart Mock erzeugst du realistische Holo3-Antworten, ohne die Live-API zu belasten. Das spart Credits im Integrationstest und ermöglicht parallele Frontend-Entwicklung.

Testszenarien:

Verkette mehrere Holo3-Anfragen in Apidog, um Multistep-Workflows zu simulieren und die Aktionssequenz vor dem Live-Deployment zu prüfen.

Holo3 vs. Claude Computer Use vs. OpenAI Operator

Holo3-122B Holo3-35B Claude Computer Use OpenAI Operator
OSWorld-Verified 78.85% ~55% ~65% ~62%
API-Zugriff Ja Ja (free) Ja Ja
Offene Gewichte Nein Ja (Apache 2.0) Nein Nein
Selbst hostbar Nein Ja Nein Nein
Kosten vs. GPT-5.4 Niedriger Viel niedriger Vergleichbar GPT-5.4 Preis
Am besten für Produktion Entwicklung/OSS Anthropic-Stack OpenAI-Stack

Empfehlung nach Use-Case:

  • Holo3-122B: Beste Genauigkeit, ideal für produktive Multi-App-Workflows.
  • Holo3-35B: Entwicklung, Test, Open Source, Self-Hosting.
  • Claude Computer Use: Für Anthropic-Nutzer mit einheitlicher Abrechnung.
  • OpenAI Operator: Für GPT-5.4-Nutzer, die einen Anbieter bevorzugen.

Unternehmens-Anwendungsfälle

Holo3 ist optimal für Workflows ohne saubere API:

  • Dateneingabe in Altsystemen: ERP/CRM ohne REST-API – Holo3 automatisiert die GUI, keine Modernisierung nötig.
  • Plattformübergreifender Abgleich: Zahlen aus PDF extrahieren, mit Tabelle abgleichen, Dashboard updaten – Holo3 übernimmt den kompletten Ablauf.
  • Regressionstests für Web-Apps: Statt fragiler Selenium-Skripte nutze Holo3 mit Klartext-Tasks – UI-Änderungen ohne Selektor-Pflege.
  • Wettbewerbsanalyse: Systematisches Scraping und Strukturdatenerfassung auf Webseiten, die Standard-Scraping blocken.

Benchmarks: Holo3 ist in allen vier Kategorien führend, vor allem bei Multi-App-Workflows mit komplexem Kontextmanagement.

Ausblick: Adaptive Agentur

H Company arbeitet am nächsten Schritt: Adaptive Agentur. Ziel ist ein Modell, das neue, maßgeschneiderte Unternehmenssoftware in Echtzeit versteht und navigiert – ohne vorherige Trainingsdaten. Der Agent baut sich beim Erstkontakt ein mentales Modell der UI-Struktur und erledigt Aufgaben adaptiv.

Das würde die größte Restriktion heutiger Computernutzungs-KI für Unternehmen beseitigen.

Fazit

Holo3 setzt mit 78,85 % auf OSWorld-Verified einen neuen Maßstab für Desktop-Automatisierung und schlägt Claude und GPT-basierte Lösungen bei komplexen Multi-App-Aufgaben. Die Open-Weight-Variante Holo3-35B-A3B unter Apache 2.0 macht einen kostenfreien Einstieg möglich.

Implementierungsmuster: Screenshot aufnehmen, API-POST, Aktion ausführen, wiederholen.

Testing: Mit Apidog validierst, mockst und testest du die Integration zuverlässig – bevor du live gehst.

Tipp: Entwickelst du etwas mit Desktop-GUI? Nutze Apidog kostenlos, um deine Holo3-Integration abzusichern.

Häufig gestellte Fragen

Was ist Holo3?

Holo3 ist ein KI-Modell von H Company für Computernutzung. Es verarbeitet Screenshots und gibt Aktionen (Klicks, Tastatur, Scrollen) für Desktop- oder Browser-Aufgaben zurück. Es erreicht 78,85 % auf dem OSWorld-Verified-Benchmark.

Ist Holo3 Open Source?

Die Variante Holo3-35B-A3B ist Open-Weight unter Apache 2.0 (Download auf HuggingFace). Holo3-122B-A10B ist nur per API nutzbar. Beide Varianten sind über die Inference API von H Company erhältlich, das 35B-Modell sogar kostenlos.

Wie funktioniert der OSWorld-Benchmark?

OSWorld testet echte Computeraufgaben (Web, Dateisystem, Multi-App). Der Erfolg wird über den Systemzustand nach Ausführung gemessen – nicht durch Ausgabetext. Die Aufgaben reichen von Einzel-App bis zu komplexen Multi-App-Workflows.

Wie schneidet Holo3 gegenüber Claude Computer Use ab?

Holo3-122B erzielt höhere Werte (78,85 % vs. ca. 65 % für Claude) und ist günstiger pro Aufgabe. Claude bleibt sinnvoll, wenn du bereits im Anthropic-Ökosystem bist.

Kann ich Holo3 lokal ausführen?

Ja, mit Holo3-35B-A3B (Open-Weight auf HuggingFace). Das 122B-Modell ist exklusiv per API.

Für welche Anwendungsfälle eignen sich Computernutzungs-APIs?

Automatisierung von Altsystemen (ohne REST-API), App-übergreifende Daten-Workflows, Regressionstests ohne fragile Selektoren, Scraping für Wettbewerbsanalysen – und generell alle manuellen Desktop-Workflows.

Wie teste ich meine Holo3 API-Integration?

Mit Apidog: Endpunkt importieren, Antwort-Assertions konfigurieren, die API mocken und Testszenarien für die Integration verketten.

Was ist „Adaptive Agentur“ in der Holo3 Roadmap?

Zukünftige Modelle sollen neue, unbekannte Unternehmenssoftware in Echtzeit navigieren können – durch UI-Strukturerkennung ohne vorherige Trainingsdaten. Das würde KI-gestützte Computernutzung auch für individuell entwickelte Unternehmenslösungen universell machen.

Top comments (0)