Antoine Laurent

Posted on Apr 2 • Originally published at apidog.com

Holo3 : Le meilleur modèle d'utilisation informatique ?

En bref

H Company a lancé Holo3 le 31 mars 2026, un modèle à mélange d'experts obtenant un score de 78,85 % sur OSWorld-Verified, le plus élevé jamais enregistré sur le principal benchmark d'utilisation d'ordinateurs de bureau. Il surpasse GPT-5.4 et Opus 4.6 pour une fraction du coût. L'API est maintenant disponible, et la variante 35B est open-weight sur HuggingFace sous licence Apache 2.0.

Essayez Apidog dès aujourd'hui

La lacune d'utilisation informatique que la plupart des développeurs n'ont pas résolue

Vous avez automatisé vos API. Votre pipeline CI/CD fonctionne sans accroc. Mais il existe toujours une catégorie de tâches qui échappe à toute automatisation : les logiciels d'entreprise hérités sans API, les applications de bureau antérieures à REST, les workflows en plusieurs étapes qui traversent cinq interfaces utilisateur différentes.

Les outils RPA traditionnels (UiPath, Automation Anywhere) gèrent cela avec des scripts de coordonnées d'écran fragiles qui se brisent à chaque modification de l'interface utilisateur. L'alternative a été le travail manuel.

L'IA d'utilisation informatique change cette équation. Les modèles qui voient des captures d'écran et émettent des actions de clic, de saisie et de défilement peuvent naviguer dans n'importe quelle GUI sans avoir besoin d'une API. Holo3, lancé le 31 mars 2026 par H Company, basée à Paris, est actuellement le modèle le plus puissant disponible publiquement pour cette catégorie de tâches.

💡 Si vous développez des workflows d'automatisation ou des pipelines de test qui interagissent avec des logiciels de bureau, l'API de Holo3 mérite d'être comprise dès maintenant. Et si vous utilisez Apidog pour concevoir et tester vos API, les sections ci-dessous vous montrent exactement comment intégrer les appels Holo3 à votre workflow.

Qu'est-ce que Holo3 ?

Holo3 est un modèle d'utilisation informatique : vous lui donnez une capture d'écran d'un bureau ou d'un navigateur, vous lui indiquez la tâche à accomplir, et il renvoie des actions (clics, frappes au clavier, commandes de défilement) à exécuter sur cet écran. Vous capturez le résultat, refaites une capture d'écran et répétez jusqu'à ce que la tâche soit terminée.

H Company propose deux variantes :

Holo3-122B-A10B — le fleuron. 122 milliards de paramètres totaux, 10 milliards actifs (MoE éparse). API hébergée uniquement sur hcompany.ai/holo-models-api. Établit le record actuel du benchmark.
Holo3-35B-A3B — 35 milliards de paramètres totaux, 3 milliards actifs. Open-weight sur HuggingFace sous licence Apache 2.0. Niveau gratuit sur l'API d'inférence de H Company. Auto-hébergeable.

L'architecture MoE (mixture of experts) signifie qu'une fraction seulement des paramètres est activée par token, de sorte que le modèle est significativement moins cher à exécuter que son nombre total de paramètres ne le suggère. H Company déclare que Holo3-122B-A10B coûte moins cher que GPT-5.4 et Opus 4.6 par tâche.

OSWorld-Verified : ce que mesure réellement le benchmark

OSWorld-Verified est le principal benchmark pour l'évaluation de l'utilisation informatique par l'IA. Contrairement aux benchmarks qui notent le texte de sortie, OSWorld teste l'exécution réelle : l'agent doit accomplir de véritables tâches sur un véritable ordinateur, et le succès est vérifié en contrôlant l'état réel du système par la suite.

Les tâches couvrent toute la gamme de complexité :

Tâches mono-application (ouvrir un fichier, remplir un formulaire, copier des données entre cellules)
Workflows multi-applications (récupérer une valeur d'un PDF, mettre à jour une feuille de calcul, envoyer un e-mail de confirmation)
Séquences multi-applications à long terme qui nécessitent un raisonnement à travers plusieurs systèmes sans perte de contexte

Holo3-122B-A10B obtient un score de 78,85 % sur OSWorld-Verified. Pour mettre cela en contexte : des scores supérieurs à 40 % étaient considérés comme de l'état de l'art jusqu'à récemment. Les modèles leaders précédents d'Anthropic et d'OpenAI se situaient dans la fourchette de 60 à 65 %.

L'écart est le plus significatif à l'extrémité difficile du benchmark. Les benchmarks internes H Corporate de H Company (486 tâches réparties entre l'e-commerce, les logiciels d'entreprise, la collaboration et les workflows multi-applications) montrent que Holo3 prend particulièrement l'avantage sur les tâches multi-applications — celles qui nécessitent de coordonner des données entre plusieurs applications simultanément.

Comment Holo3 a été entraîné : le volant d'apprentissage agentique

La plupart des modèles d'utilisation informatique sont entraînés sur des démonstrations statiques. H Company a développé une boucle d'entraînement continue qu'ils appellent le volant d'apprentissage agentique :

Données de Navigation Synthétiques — Des instructions humaines et générées produisent des exemples de navigation spécifiques aux scénarios.
Augmentation Hors Domaine — Les scénarios sont étendus par programmation pour couvrir les états d'interface utilisateur inattendus et les cas limites.
Apprentissage par Renforcement Curaté — Chaque échantillon de données est filtré et utilisé dans un pipeline de RL pour maximiser directement les taux d'achèvement des tâches.

Les données d'entraînement proviennent de la Fabrique d'Environnements Synthétiques — un système où des agents de codage construisent des applications web d'entreprise complètes à partir de zéro, basées sur des spécifications de scénario. Ces environnements incluent des tâches vérifiables avec des scripts de validation de bout en bout, de sorte que le modèle s'entraîne sur des workflows métier réalistes plutôt que sur des exemples jouets.

Le résultat : Holo3 surpasse les modèles de base Qwen3.5 avec un nombre de paramètres plus élevé sur les mêmes tâches de benchmark. L'architecture seule n'explique pas l'écart ; la méthodologie d'entraînement le fait.

Comment appeler l'API Holo3

L'API Holo3 suit un modèle standard de boucle capture d'écran-action. Voici comment l'intégrer étape par étape.

1. Configurer l'authentification

# URL de base de l'API d'inférence H Company
https://api.hcompany.ai/v1

# En-tête
Authorization: Bearer VOTRE_CLÉ_API
Content-Type: application/json

Obtenez votre clé API sur hcompany.ai/holo-models-api. Le niveau gratuit couvre Holo3-35B-A3B.

2. Envoyer une capture d'écran avec une tâche

import base64
import httpx

# Capture d'écran (exemple utilisant pyautogui)
import pyautogui
screenshot = pyautogui.screenshot()
screenshot.save("/tmp/screen.png")

with open("/tmp/screen.png", "rb") as f:
    image_b64 = base64.b64encode(f.read()).decode()

response = httpx.post(
    "https://api.hcompany.ai/v1/computer-use",
    headers={"Authorization": "Bearer VOTRE_CLÉ_API"},
    json={
        "model": "holo3-122b-a10b",
        "task": "Ouvrir le dossier des factures et trouver le PDF le plus récent",
        "screenshot": image_b64,
        "screen_width": 1920,
        "screen_height": 1080
    }
)

action = response.json()
print(action)

3. Analyser et exécuter l'action

L'API renvoie des actions structurées que vous exécutez sur la machine hôte :

{
  "action_type": "click",
  "coordinate": [245, 380],
  "reasoning": "L'icône du dossier de factures est visible à cette position"
}

Types d'action possibles : click (clic), double_click (double-clic), right_click (clic droit), type (saisie), key (touche), scroll (défilement), screenshot_request (demande de capture d'écran), task_complete (tâche terminée).

4. Boucler jusqu'à l'achèvement

def run_computer_use_task(task: str, max_steps: int = 20):
    for step in range(max_steps):
        screenshot = capture_screen()
        response = call_holo3_api(task, screenshot)
        action = response["action"]

        if action["action_type"] == "task_complete":
            print(f"Terminé en {step + 1} étapes")
            return response["result"]

        execute_action(action)

    raise TimeoutError("Tâche non terminée dans la limite d'étapes")

Tester les appels API Holo3 avec Apidog

Une fois que vous appelez l'API Holo3, vous devez valider que votre intégration fonctionne de manière fiable, en particulier pour l'automatisation en production. Apidog gère cela proprement.

Importer le point d'accès :

Dans Apidog, créez une nouvelle requête HTTP vers https://api.hcompany.ai/v1/computer-use. Ajoutez votre en-tête Authorization comme variable d'environnement afin de ne pas coder en dur les clés.

Configurer la validation des requêtes :

Utilisez les assertions de test d'Apidog pour vérifier automatiquement la structure de la réponse :

// Dans le script post-réponse d'Apidog
pm.test("Le type d'action est valide", () => {
    const validActions = ["click", "type", "key", "scroll", "task_complete", "screenshot_request"];
    pm.expect(validActions).to.include(pm.response.json().action.action_type);
});

pm.test("Les coordonnées sont dans les limites de l'écran", () => {
    const action = pm.response.json().action;
    if (action.coordinate) {
        pm.expect(action.coordinate[0]).to.be.within(0, 1920);
        pm.expect(action.coordinate[1]).to.be.within(0, 1080);
    }
});

Simuler l'API pendant le développement :

Utilisez Smart Mock d'Apidog pour générer des réponses Holo3 réalistes sans solliciter l'API en direct. Cela économise des crédits pendant les tests d'intégration et permet à votre couche front-end ou d'orchestration de se développer en parallèle.

Exécuter des scénarios de test :

Enchaînez plusieurs requêtes Holo3 dans un scénario de test Apidog pour simuler une boucle de tâche complète en plusieurs étapes. Vous pouvez valider que la séquence d'actions est cohérente à travers les étapes avant de l'exécuter sur une machine en direct.

Holo3 vs Claude Computer Use vs OpenAI Operator

	Holo3-122B	Holo3-35B	Claude Computer Use	OpenAI Operator
OSWorld-Verified	78.85%	~55% (est.)	~65%	~62%
Accès API	Oui	Oui (niveau gratuit)	Oui	Oui
Poids ouverts	Non	Oui (Apache 2.0)	Non	Non
Auto-hébergeable	Non	Oui	Non	Non
Coût vs GPT-5.4	Inférieur	Beaucoup plus bas	Comparable	Tarification GPT-5.4
Idéal pour	Entreprise en production	Développement/test/OSS	Écosystème Anthropic	Écosystème OpenAI

Le choix pratique dépend de votre stack :

Holo3-122B si vous avez besoin d'une précision maximale sur des workflows multi-applications complexes et que le coût est secondaire par rapport à la fiabilité.
Holo3-35B pour le développement, les tests, les projets open-source, ou si vous souhaitez l'auto-héberger.
Claude Computer Use si vous êtes déjà profondément intégré à l'écosystème Anthropic et que vous souhaitez une facturation API unifiée.
OpenAI Operator si vous utilisez GPT-5.4 ailleurs et que vous souhaitez une relation avec un seul fournisseur.

Cas d'usage en entreprise

Holo3 couvre les workflows qui n'ont pas de solution propre basée sur une API :

Saisie de données dans les systèmes hérités — Systèmes ERP et CRM des années 2000 sans API REST. Holo3 peut naviguer dans l'interface utilisateur du bureau et saisir ou extraire des données sans nécessiter de projet de modernisation.

Rapprochement inter-plateformes — Extraire un chiffre d'un PDF, le vérifier par rapport à une feuille de calcul interne, mettre à jour un tableau de bord tiers. Holo3 gère la séquence complète de manière autonome.

Tests de régression pour les applications web — Au lieu de maintenir des scripts Selenium fragiles liés aux identifiants d'éléments, orientez Holo3 vers votre environnement de staging avec une description de tâche en langage naturel. Il s'adapte aux changements d'interface utilisateur sans mises à jour de sélecteurs.

Veille concurrentielle — Parcourir et extraire systématiquement des données structurées de sites web qui bloquent le scraping standard.

Les benchmarks internes H Corporate de H Company montrent que Holo3 obtient des résultats solides dans les quatre catégories : E-commerce, logiciels d'entreprise, collaboration et multi-applications. Les workflows multi-applications montrent le plus grand écart de performance par rapport aux concurrents — les tâches qui nécessitent un raisonnement à travers plusieurs applications sans perdre l'état sont celles où la méthodologie d'entraînement est la plus fructueuse.

Quelle est la prochaine étape : Agence Adaptative

H Company est claire sur ce qui vient après Holo3. Leurs travaux actuels se concentrent sur l'Agence Adaptative — des modèles qui ne se contentent pas de naviguer dans des logiciels qu'ils ont déjà vus, mais qui apprennent à naviguer dans des logiciels d'entreprise entièrement nouveaux et sur mesure en temps réel.

Les modèles actuels d'utilisation informatique, y compris Holo3, sont toujours entraînés sur un ensemble fini d'environnements logiciels. Un agent confronté à un outil interne personnalisé qu'il n'a jamais vu aura des taux de succès inférieurs à ceux obtenus sur des applications standard. L'Agence Adaptative vise à combler cette lacune : le modèle raisonnerait sur la structure du logiciel au premier contact, construirait un modèle fonctionnel de son fonctionnement et exécuterait des tâches sans données d'entraînement préalables.

Si H Company parvient à cela, cela éliminera la principale limitation restante de l'IA d'utilisation informatique pour le déploiement en entreprise.

Conclusion

Holo3 établit une nouvelle référence pour l'utilisation des ordinateurs de bureau. Avec 78,85 % sur OSWorld-Verified, il est mesurablement meilleur que les alternatives basées sur Claude et GPT pour les tâches complexes en plusieurs étapes. Le niveau gratuit sur Holo3-35B-A3B et les poids ouverts Apache 2.0 le rendent accessible aux développeurs pour les tests sans coût initial.

Le modèle d'intégration est simple : capture d'écran, POST vers l'API, exécution de l'action renvoyée, répétition. Apidog aide à rendre cette intégration fiable : validation des structures de réponse, simulation pendant le développement et exécution de scénarios de test avant le déploiement sur des systèmes en direct.

Si vous développez quoi que ce soit qui touche aux interfaces graphiques de bureau, essayez Apidog gratuitement et testez votre intégration Holo3 avant qu'elle n'atteigne la production.

FAQ

Qu'est-ce que Holo3 ?

Holo3 est un modèle d'IA d'utilisation informatique de H Company qui prend des captures d'écran en entrée et renvoie des actions (clics, frappes au clavier, défilements) pour accomplir des tâches sur un bureau ou un navigateur. Il obtient un score de 78,85 % sur le benchmark OSWorld-Verified, le résultat le plus élevé enregistré sur ce test.

Holo3 est-il open source ?

La variante plus petite, Holo3-35B-A3B, est open-weight sous licence Apache 2.0 et téléchargeable sur HuggingFace. Le modèle phare Holo3-122B-A10B est uniquement disponible via API. Les deux sont accessibles via l'API d'inférence de H Company, avec un niveau gratuit pour le modèle 35B.

Comment fonctionne le benchmark OSWorld ?

OSWorld teste les agents IA sur des tâches informatiques réelles — navigation web, gestion de fichiers, workflows multi-applications. Le succès est vérifié en contrôlant l'état réel du système après l'exécution de l'agent, et non en évaluant le texte de sortie. Les tâches vont des opérations mono-application aux séquences multi-applications à long terme.

Comment Holo3 se compare-t-il à Claude Computer Use ?

Holo3-122B obtient un score plus élevé sur OSWorld-Verified (78,85 % contre environ 65 % pour Claude). Il est également moins cher par tâche. Claude Computer Use reste une option solide pour les équipes utilisant déjà l'API Anthropic et souhaitant une relation de facturation unique.

Puis-je exécuter Holo3 localement ?

Oui, si vous utilisez Holo3-35B-A3B. Les poids sont sur HuggingFace sous licence Apache 2.0. Le modèle 122B est uniquement disponible via API d'inférence.

Quels sont les principaux cas d'utilisation pour les API d'utilisation informatique ?

Automatisation des systèmes hérités (pas d'API REST disponible), workflows de données multi-applications, tests de régression d'applications web sans sélecteurs fragiles, scraping d'intelligence concurrentielle, et tout workflow de bureau qui nécessite actuellement une interaction humaine manuelle.

Comment tester mon intégration API Holo3 ?

Utilisez Apidog pour importer le point d'accès, configurer les assertions de validation de réponse, simuler l'API pendant le développement et enchaîner les requêtes en scénarios de test. Cela permet de détecter les problèmes d'intégration avant de lancer l'automatisation sur des machines en direct.

Qu'est-ce que l'« Agence Adaptative » dans la feuille de route de Holo3 ?

H Company travaille sur des modèles capables de naviguer dans des logiciels d'entreprise qu'ils n'ont jamais vus auparavant, en apprenant la structure de l'interface utilisateur en temps réel plutôt que de s'appuyer sur des données d'entraînement antérieures. Cela éliminerait la principale limitation restante de l'IA d'utilisation informatique pour les déploiements d'entreprise entièrement personnalisés.

DEV Community