DEV Community

Cover image for Holo3: ¿El Mejor Modelo de Uso de Computadoras?
Roobia
Roobia

Posted on • Originally published at apidog.com

Holo3: ¿El Mejor Modelo de Uso de Computadoras?

EN RESUMEN

H Company lanzó Holo3 el 31 de marzo de 2026, un modelo de mezcla de expertos que obtuvo un 78.85% en OSWorld-Verified, la puntuación más alta jamás registrada en el principal benchmark de uso de ordenadores de escritorio. Supera a GPT-5.4 y Opus 4.6 a una fracción del coste. La API ya está activa, y la variante 35B es de código abierto en HuggingFace bajo la licencia Apache 2.0.

Prueba Apidog hoy

La brecha en el uso de ordenadores que la mayoría de los desarrolladores no han resuelto

Puedes tener automatizadas tus APIs y pipelines CI/CD al máximo, pero los sistemas legacy sin API, aplicaciones de escritorio previas a REST y flujos de trabajo que cruzan varias interfaces siguen siendo un cuello de botella. Las herramientas RPA tradicionales (UiPath, Automation Anywhere) se basan en scripts frágiles de coordenadas de pantalla que suelen romperse. La alternativa ha sido el trabajo manual.

La IA de uso de ordenadores cambia esto radicalmente. Modelos como Holo3 pueden ver capturas de pantalla y emitir acciones como clics, escritura y desplazamiento para navegar cualquier GUI, sin requerir API. Holo3, lanzado por H Company (París), es hoy el modelo público más potente para este tipo de automatización.

💡 Tip: Si automatizas flujos o pipelines de prueba en software de escritorio, vale la pena dominar la API de Holo3. Y si usas Apidog para diseñar y testear APIs, abajo verás cómo conectar Holo3 a tu flujo real.

¿Qué es Holo3?

Holo3 es un modelo de uso de ordenador: recibe una captura de pantalla y una instrucción de tarea, y devuelve acciones estructuradas (clics, teclas, scroll) que puedes ejecutar en ese escritorio. Capturas el resultado, repites el ciclo hasta completar la tarea.

Holo3 toma una captura de pantalla y una tarea y devuelve acciones de la interfaz de usuario (clic, escritura, desplazamiento) para ejecutarlas en la máquina host.

Hay dos variantes:

  • Holo3-122B-A10B — 122B parámetros totales, 10B activos (MoE). Solo API en hcompany.ai/holo-models-api. Mejor resultado en benchmark.
  • Holo3-35B-A3B — 35B totales, 3B activos. Código abierto en HuggingFace bajo Apache 2.0, y disponible en el nivel gratuito de la API.

La arquitectura MoE activa solo una fracción de parámetros por token, haciendo al modelo más eficiente que los LLM clásicos. H Company afirma que Holo3-122B-A10B es más barato por tarea que GPT-5.4 y Opus 4.6.

OSWorld-Verified: qué mide realmente el benchmark

OSWorld-Verified es el benchmark estándar para IA en uso de ordenador. Aquí no se evalúa solo el texto generado: el agente debe ejecutar tareas reales en un ordenador real, y el éxito se verifica por el estado final del sistema.

Tareas evaluadas:

  • Operaciones en una sola app (abrir archivo, rellenar formulario, copiar celdas)
  • Flujos entre apps (extraer de PDF, actualizar hoja de cálculo, enviar email)
  • Secuencias complejas de largo horizonte entre múltiples apps

Holo3-122B-A10B alcanza 78.85% en OSWorld-Verified. Hasta hace poco, superar el 40% era estado del arte; los mejores modelos anteriores (Anthropic, OpenAI) rondaban el 60-65%.

Holo3 supera a los competidores, incluidos los modelos basados en GPT, en el benchmark OSWorld-Verified de uso de ordenadores, con una puntuación del 78.85%.

La mejora es especialmente grande en tareas de varias aplicaciones, donde coordinar datos simultáneamente exige razonamiento contextual avanzado.

Cómo se entrenó Holo3: el volante de aprendizaje agéntico

La mayoría de modelos se entrenan con demos estáticas. H Company empleó un loop de entrenamiento continuo:

  1. Datos de navegación sintética — Instrucciones humanas/generadas para ejemplos específicos.
  2. Aumento fuera de dominio — Escenarios extendidos con estados de UI y edge cases.
  3. RL curado — Cada muestra pasa por un pipeline RL para maximizar el completion rate de tareas.

Todo esto se alimenta desde la Fábrica de Entornos Sintéticos, donde agentes generan apps web empresariales completas con tareas y validación end-to-end, entrenando el modelo en workflows empresariales realistas.

El resultado: Holo3 supera a modelos base como Qwen3.5, incluso con menos parámetros, por la calidad del pipeline de entrenamiento.

Cómo llamar a la API de Holo3

La API sigue el patrón de bucle captura-acción. Implementa así:

1. Configura la autenticación

# URL base
https://api.hcompany.ai/v1

# Headers
Authorization: Bearer YOUR_API_KEY
Content-Type: application/json
Enter fullscreen mode Exit fullscreen mode

Obtén tu API key en hcompany.ai/holo-models-api. El nivel gratuito cubre Holo3-35B-A3B.

2. Envía una captura de pantalla con una tarea

import base64
import httpx
import pyautogui

screenshot = pyautogui.screenshot()
screenshot.save("/tmp/screen.png")
with open("/tmp/screen.png", "rb") as f:
    image_b64 = base64.b64encode(f.read()).decode()

response = httpx.post(
    "https://api.hcompany.ai/v1/computer-use",
    headers={"Authorization": "Bearer YOUR_API_KEY"},
    json={
        "model": "holo3-122b-a10b",
        "task": "Open the invoice folder and find the most recent PDF",
        "screenshot": image_b64,
        "screen_width": 1920,
        "screen_height": 1080
    }
)

action = response.json()
print(action)
Enter fullscreen mode Exit fullscreen mode

3. Analiza y ejecuta la acción

Respuesta típica:

{
  "action_type": "click",
  "coordinate": [245, 380],
  "reasoning": "El icono de la carpeta de facturas es visible en esta posición"
}
Enter fullscreen mode Exit fullscreen mode

Tipos de acción: click, double_click, right_click, type, key, scroll, screenshot_request, task_complete.

4. Repite hasta completar

def run_computer_use_task(task: str, max_steps: int = 20):
    for step in range(max_steps):
        screenshot = capture_screen()
        response = call_holo3_api(task, screenshot)
        action = response["action"]

        if action["action_type"] == "task_complete":
            print(f"Hecho en {step + 1} pasos")
            return response["result"]

        execute_action(action)

    raise TimeoutError("Tarea no completada dentro del límite de pasos")
Enter fullscreen mode Exit fullscreen mode

Probando las llamadas a la API de Holo3 con Apidog

Para integrar y validar la automatización, usa Apidog:

  • Importa el endpoint: Crea una solicitud HTTP a https://api.hcompany.ai/v1/computer-use. Usa variables de entorno para la clave API.
  • Aserciones de validación: Asegura la estructura de respuesta automáticamente con scripts post-respuesta:
// En el script post-respuesta de Apidog
pm.test("El tipo de acción es válido", () => {
    const validActions = ["click", "type", "key", "scroll", "task_complete", "screenshot_request"];
    pm.expect(validActions).to.include(pm.response.json().action.action_type);
});

pm.test("Las coordenadas están dentro de los límites de la pantalla", () => {
    const action = pm.response.json().action;
    if (action.coordinate) {
        pm.expect(action.coordinate[0]).to.be.within(0, 1920);
        pm.expect(action.coordinate[1]).to.be.within(0, 1080);
    }
});
Enter fullscreen mode Exit fullscreen mode
  • Simulación: Usa Smart Mock de Apidog para testear sin consumir créditos reales.
  • Escenarios completos: Encadena múltiples llamadas de Holo3 en Escenarios de Prueba para simular flujos multi-paso antes de desplegar en producción.

Holo3 vs. Claude Computer Use vs. OpenAI Operator

Holo3-122B Holo3-35B Claude Computer Use OpenAI Operator
OSWorld-Verified 78.85% ~55% (est.) ~65% ~62%
Acceso API Sí (free)
Pesos abiertos No Sí (Apache 2.0) No No
Autoalojable No No No
Costo vs GPT-5.4 Menor Mucho menor Comparable Precio GPT-5.4
Mejor para Producción Dev/pruebas/OSS Ecosistema Anthropic Ecosistema OpenAI

La elección depende de tu stack:

  • Holo3-122B: Máxima precisión en flujos complejos multi-apps.
  • Holo3-35B: Pruebas, desarrollo, proyectos OSS, autoalojable.
  • Claude Computer Use: Si ya usas Anthropic.
  • OpenAI Operator: Si usas GPT-5.4 y quieres proveedor único.

Casos de uso empresarial

Holo3 automatiza flujos sin API limpia:

  • Entrada de datos en sistemas legacy: ERP/CRM antiguos sin REST API.
  • Conciliación multiplataforma: Extraer de PDF, cotejar con Excel, actualizar dashboard.
  • Pruebas de regresión web: Apunta Holo3 a staging con una simple tarea en lenguaje natural; mayor robustez que scripts Selenium.
  • Inteligencia competitiva: Extraer datos de webs que bloquean scraping tradicional.

Benchmarks internos muestran que Holo3 destaca en flujos multi-app, donde el razonamiento contextual es clave.

Qué sigue: Agencia Adaptativa

El siguiente paso es la Agencia Adaptativa: modelos que aprenden a navegar software empresarial totalmente nuevo en tiempo real, sin datos previos. Hoy, si el agente encuentra una herramienta interna nunca vista, su éxito baja. Con Agencia Adaptativa, el modelo razona sobre la UI al primer contacto, construye un modelo funcional y ejecuta la tarea.

Esto eliminaría la principal limitación de la IA de uso de ordenadores en empresas.

Conclusión

Holo3 marca un nuevo estándar en automatización de escritorios: 78.85% en OSWorld-Verified, superando a Claude y GPT en tareas complejas multi-paso. La variante 35B es open-source y gratuita para desarrolladores.

El patrón es simple: captura de pantalla, POST a la API, ejecuta la acción, repite. Con Apidog, puedes validar, simular y probar tu integración antes de desplegar en sistemas críticos.

Si automatizas GUIs de escritorio, prueba Apidog gratis y testea tu integración con Holo3 antes de ir a producción.

Preguntas Frecuentes

¿Qué es Holo3?

Holo3 es un modelo de IA de uso de ordenadores de H Company que toma capturas de pantalla y devuelve acciones (clics, teclas, scroll) para completar tareas en un entorno de escritorio o navegador. Logra un 78.85% en OSWorld-Verified.

¿Es Holo3 open-source?

La variante Holo3-35B-A3B es open-source bajo Apache 2.0 (descárgala aquí). El modelo 122B es solo API. Ambas variantes están disponibles en la API, con nivel gratuito para 35B.

¿Cómo funciona OSWorld?

OSWorld ejecuta tareas reales de navegación, archivos, workflows multi-app. El éxito se valida por el estado real del sistema, no solo el texto. Las tareas van desde una sola app hasta flujos complejos.

¿Holo3 vs Claude Computer Use?

Holo3-122B tiene mejor score (78.85% vs ~65%) y es más barato por tarea. Claude Computer Use es buena opción si ya usas Anthropic.

¿Puedo correr Holo3 localmente?

Sí, la versión 35B (Apache 2.0, HuggingFace). La 122B es solo API.

¿Para qué sirve una API de uso de ordenador?

Automatización en sistemas legacy sin API, workflows de datos, pruebas de regresión web sin selectores, scraping competitivo y cualquier proceso manual en desktop.

¿Cómo testeo mi integración con la API de Holo3?

Usa Apidog para importar el endpoint, validar respuestas, simular la API y encadenar escenarios. Así detectas problemas antes de automatizar en producción.

¿Qué es "Agencia Adaptativa"?

H Company trabaja en modelos que navegan software empresarial nunca visto, aprendiendo la UI en tiempo real, sin depender de datos previos. Esto eliminaría la principal limitación para despliegues 100% personalizados.

Top comments (0)