EN RESUMEN
H Company lanzó Holo3 el 31 de marzo de 2026, un modelo de mezcla de expertos que obtuvo un 78.85% en OSWorld-Verified, la puntuación más alta jamás registrada en el principal benchmark de uso de ordenadores de escritorio. Supera a GPT-5.4 y Opus 4.6 a una fracción del coste. La API ya está activa, y la variante 35B es de código abierto en HuggingFace bajo la licencia Apache 2.0.
La brecha en el uso de ordenadores que la mayoría de los desarrolladores no han resuelto
Puedes tener automatizadas tus APIs y pipelines CI/CD al máximo, pero los sistemas legacy sin API, aplicaciones de escritorio previas a REST y flujos de trabajo que cruzan varias interfaces siguen siendo un cuello de botella. Las herramientas RPA tradicionales (UiPath, Automation Anywhere) se basan en scripts frágiles de coordenadas de pantalla que suelen romperse. La alternativa ha sido el trabajo manual.
La IA de uso de ordenadores cambia esto radicalmente. Modelos como Holo3 pueden ver capturas de pantalla y emitir acciones como clics, escritura y desplazamiento para navegar cualquier GUI, sin requerir API. Holo3, lanzado por H Company (París), es hoy el modelo público más potente para este tipo de automatización.
💡 Tip: Si automatizas flujos o pipelines de prueba en software de escritorio, vale la pena dominar la API de Holo3. Y si usas Apidog para diseñar y testear APIs, abajo verás cómo conectar Holo3 a tu flujo real.
¿Qué es Holo3?
Holo3 es un modelo de uso de ordenador: recibe una captura de pantalla y una instrucción de tarea, y devuelve acciones estructuradas (clics, teclas, scroll) que puedes ejecutar en ese escritorio. Capturas el resultado, repites el ciclo hasta completar la tarea.
Hay dos variantes:
- Holo3-122B-A10B — 122B parámetros totales, 10B activos (MoE). Solo API en hcompany.ai/holo-models-api. Mejor resultado en benchmark.
- Holo3-35B-A3B — 35B totales, 3B activos. Código abierto en HuggingFace bajo Apache 2.0, y disponible en el nivel gratuito de la API.
La arquitectura MoE activa solo una fracción de parámetros por token, haciendo al modelo más eficiente que los LLM clásicos. H Company afirma que Holo3-122B-A10B es más barato por tarea que GPT-5.4 y Opus 4.6.
OSWorld-Verified: qué mide realmente el benchmark
OSWorld-Verified es el benchmark estándar para IA en uso de ordenador. Aquí no se evalúa solo el texto generado: el agente debe ejecutar tareas reales en un ordenador real, y el éxito se verifica por el estado final del sistema.
Tareas evaluadas:
- Operaciones en una sola app (abrir archivo, rellenar formulario, copiar celdas)
- Flujos entre apps (extraer de PDF, actualizar hoja de cálculo, enviar email)
- Secuencias complejas de largo horizonte entre múltiples apps
Holo3-122B-A10B alcanza 78.85% en OSWorld-Verified. Hasta hace poco, superar el 40% era estado del arte; los mejores modelos anteriores (Anthropic, OpenAI) rondaban el 60-65%.
La mejora es especialmente grande en tareas de varias aplicaciones, donde coordinar datos simultáneamente exige razonamiento contextual avanzado.
Cómo se entrenó Holo3: el volante de aprendizaje agéntico
La mayoría de modelos se entrenan con demos estáticas. H Company empleó un loop de entrenamiento continuo:
- Datos de navegación sintética — Instrucciones humanas/generadas para ejemplos específicos.
- Aumento fuera de dominio — Escenarios extendidos con estados de UI y edge cases.
- RL curado — Cada muestra pasa por un pipeline RL para maximizar el completion rate de tareas.
Todo esto se alimenta desde la Fábrica de Entornos Sintéticos, donde agentes generan apps web empresariales completas con tareas y validación end-to-end, entrenando el modelo en workflows empresariales realistas.
El resultado: Holo3 supera a modelos base como Qwen3.5, incluso con menos parámetros, por la calidad del pipeline de entrenamiento.
Cómo llamar a la API de Holo3
La API sigue el patrón de bucle captura-acción. Implementa así:
1. Configura la autenticación
# URL base
https://api.hcompany.ai/v1
# Headers
Authorization: Bearer YOUR_API_KEY
Content-Type: application/json
Obtén tu API key en hcompany.ai/holo-models-api. El nivel gratuito cubre Holo3-35B-A3B.
2. Envía una captura de pantalla con una tarea
import base64
import httpx
import pyautogui
screenshot = pyautogui.screenshot()
screenshot.save("/tmp/screen.png")
with open("/tmp/screen.png", "rb") as f:
image_b64 = base64.b64encode(f.read()).decode()
response = httpx.post(
"https://api.hcompany.ai/v1/computer-use",
headers={"Authorization": "Bearer YOUR_API_KEY"},
json={
"model": "holo3-122b-a10b",
"task": "Open the invoice folder and find the most recent PDF",
"screenshot": image_b64,
"screen_width": 1920,
"screen_height": 1080
}
)
action = response.json()
print(action)
3. Analiza y ejecuta la acción
Respuesta típica:
{
"action_type": "click",
"coordinate": [245, 380],
"reasoning": "El icono de la carpeta de facturas es visible en esta posición"
}
Tipos de acción: click, double_click, right_click, type, key, scroll, screenshot_request, task_complete.
4. Repite hasta completar
def run_computer_use_task(task: str, max_steps: int = 20):
for step in range(max_steps):
screenshot = capture_screen()
response = call_holo3_api(task, screenshot)
action = response["action"]
if action["action_type"] == "task_complete":
print(f"Hecho en {step + 1} pasos")
return response["result"]
execute_action(action)
raise TimeoutError("Tarea no completada dentro del límite de pasos")
Probando las llamadas a la API de Holo3 con Apidog
Para integrar y validar la automatización, usa Apidog:
-
Importa el endpoint: Crea una solicitud HTTP a
https://api.hcompany.ai/v1/computer-use. Usa variables de entorno para la clave API. - Aserciones de validación: Asegura la estructura de respuesta automáticamente con scripts post-respuesta:
// En el script post-respuesta de Apidog
pm.test("El tipo de acción es válido", () => {
const validActions = ["click", "type", "key", "scroll", "task_complete", "screenshot_request"];
pm.expect(validActions).to.include(pm.response.json().action.action_type);
});
pm.test("Las coordenadas están dentro de los límites de la pantalla", () => {
const action = pm.response.json().action;
if (action.coordinate) {
pm.expect(action.coordinate[0]).to.be.within(0, 1920);
pm.expect(action.coordinate[1]).to.be.within(0, 1080);
}
});
- Simulación: Usa Smart Mock de Apidog para testear sin consumir créditos reales.
- Escenarios completos: Encadena múltiples llamadas de Holo3 en Escenarios de Prueba para simular flujos multi-paso antes de desplegar en producción.
Holo3 vs. Claude Computer Use vs. OpenAI Operator
| Holo3-122B | Holo3-35B | Claude Computer Use | OpenAI Operator | |
|---|---|---|---|---|
| OSWorld-Verified | 78.85% | ~55% (est.) | ~65% | ~62% |
| Acceso API | Sí | Sí (free) | Sí | Sí |
| Pesos abiertos | No | Sí (Apache 2.0) | No | No |
| Autoalojable | No | Sí | No | No |
| Costo vs GPT-5.4 | Menor | Mucho menor | Comparable | Precio GPT-5.4 |
| Mejor para | Producción | Dev/pruebas/OSS | Ecosistema Anthropic | Ecosistema OpenAI |
La elección depende de tu stack:
- Holo3-122B: Máxima precisión en flujos complejos multi-apps.
- Holo3-35B: Pruebas, desarrollo, proyectos OSS, autoalojable.
- Claude Computer Use: Si ya usas Anthropic.
- OpenAI Operator: Si usas GPT-5.4 y quieres proveedor único.
Casos de uso empresarial
Holo3 automatiza flujos sin API limpia:
- Entrada de datos en sistemas legacy: ERP/CRM antiguos sin REST API.
- Conciliación multiplataforma: Extraer de PDF, cotejar con Excel, actualizar dashboard.
- Pruebas de regresión web: Apunta Holo3 a staging con una simple tarea en lenguaje natural; mayor robustez que scripts Selenium.
- Inteligencia competitiva: Extraer datos de webs que bloquean scraping tradicional.
Benchmarks internos muestran que Holo3 destaca en flujos multi-app, donde el razonamiento contextual es clave.
Qué sigue: Agencia Adaptativa
El siguiente paso es la Agencia Adaptativa: modelos que aprenden a navegar software empresarial totalmente nuevo en tiempo real, sin datos previos. Hoy, si el agente encuentra una herramienta interna nunca vista, su éxito baja. Con Agencia Adaptativa, el modelo razona sobre la UI al primer contacto, construye un modelo funcional y ejecuta la tarea.
Esto eliminaría la principal limitación de la IA de uso de ordenadores en empresas.
Conclusión
Holo3 marca un nuevo estándar en automatización de escritorios: 78.85% en OSWorld-Verified, superando a Claude y GPT en tareas complejas multi-paso. La variante 35B es open-source y gratuita para desarrolladores.
El patrón es simple: captura de pantalla, POST a la API, ejecuta la acción, repite. Con Apidog, puedes validar, simular y probar tu integración antes de desplegar en sistemas críticos.
Si automatizas GUIs de escritorio, prueba Apidog gratis y testea tu integración con Holo3 antes de ir a producción.
Preguntas Frecuentes
¿Qué es Holo3?
Holo3 es un modelo de IA de uso de ordenadores de H Company que toma capturas de pantalla y devuelve acciones (clics, teclas, scroll) para completar tareas en un entorno de escritorio o navegador. Logra un 78.85% en OSWorld-Verified.
¿Es Holo3 open-source?
La variante Holo3-35B-A3B es open-source bajo Apache 2.0 (descárgala aquí). El modelo 122B es solo API. Ambas variantes están disponibles en la API, con nivel gratuito para 35B.
¿Cómo funciona OSWorld?
OSWorld ejecuta tareas reales de navegación, archivos, workflows multi-app. El éxito se valida por el estado real del sistema, no solo el texto. Las tareas van desde una sola app hasta flujos complejos.
¿Holo3 vs Claude Computer Use?
Holo3-122B tiene mejor score (78.85% vs ~65%) y es más barato por tarea. Claude Computer Use es buena opción si ya usas Anthropic.
¿Puedo correr Holo3 localmente?
Sí, la versión 35B (Apache 2.0, HuggingFace). La 122B es solo API.
¿Para qué sirve una API de uso de ordenador?
Automatización en sistemas legacy sin API, workflows de datos, pruebas de regresión web sin selectores, scraping competitivo y cualquier proceso manual en desktop.
¿Cómo testeo mi integración con la API de Holo3?
Usa Apidog para importar el endpoint, validar respuestas, simular la API y encadenar escenarios. Así detectas problemas antes de automatizar en producción.
¿Qué es "Agencia Adaptativa"?
H Company trabaja en modelos que navegan software empresarial nunca visto, aprendiendo la UI en tiempo real, sin depender de datos previos. Esto eliminaría la principal limitación para despliegues 100% personalizados.


Top comments (0)