Lucas

Posted on Apr 2 • Originally published at apidog.com

Holo3: O Melhor Modelo de Uso do Computador?

RESUMO

A H Company lançou o Holo3 em 31 de março de 2026, um modelo de mistura de especialistas que alcançou 78,85% no OSWorld-Verified, a pontuação mais alta já registrada no principal benchmark de uso de computador desktop. Ele supera o GPT-5.4 e o Opus 4.6 por uma fração do custo. A API está ativa agora, e a variante 35B é de código aberto (open-weight) no HuggingFace sob a licença Apache 2.0.

Experimente o Apidog hoje

A lacuna de uso de computador que a maioria dos desenvolvedores não resolveu

Você já automatizou suas APIs e seu pipeline de CI/CD roda sem falhas, mas tarefas envolvendo software legado sem API, aplicativos desktop antigos ou operações multi-etapa cruzando várias interfaces de usuário continuam exigindo intervenção manual.

Ferramentas tradicionais de RPA (UiPath, Automation Anywhere) dependem de scripts frágeis baseados em coordenadas de tela, que quebram com mudanças simples na UI. A alternativa era trabalho manual.

A IA de uso de computador muda esse cenário. Modelos que visualizam capturas de tela e emitem comandos de clique, digitação e rolagem podem operar qualquer GUI sem necessidade de API. O Holo3, lançado pela H Company, é hoje o modelo mais forte disponível para esse tipo de automação.

💡 Se você automatiza fluxos de trabalho ou pipelines de teste envolvendo software desktop, vale a pena conhecer a API do Holo3 agora. E, se utiliza o Apidog para projetar e testar APIs, veja abaixo como integrar chamadas do Holo3 ao seu fluxo.

O que é Holo3?

Holo3 é um modelo de uso de computador: você fornece uma captura de tela de um desktop ou navegador e uma tarefa; o modelo retorna ações (cliques, teclas, comandos de rolagem) para executar na tela. Você captura o resultado, envia nova captura, e repete até a tarefa terminar.

A H Company oferece duas versões:

Holo3-122B-A10B – Principal modelo. 122B parâmetros totais, 10B ativos (MoE esparso). Disponível via API hospedada em hcompany.ai/holo-models-api. Recordista nos benchmarks.
Holo3-35B-A3B – 35B totais, 3B ativos. Open-weight no HuggingFace, licença Apache 2.0. Disponível no nível gratuito da API e self-hostable.

A arquitetura MoE ativa só uma fração dos parâmetros por token, reduzindo custo de execução em relação ao total de parâmetros. Segundo a H Company, o Holo3-122B-A10B custa menos por tarefa que GPT-5.4 e Opus 4.6.

OSWorld-Verified: o que o benchmark realmente mede

O OSWorld-Verified é o benchmark referência para IA de uso de computador. Ao invés de avaliar somente saída textual, testa a execução real: o agente deve completar tarefas em um desktop real, e o sucesso é verificado pelo estado do sistema após a execução.

Tarefas avaliadas incluem:

Ações simples de aplicativo (abrir arquivo, preencher formulário)
Fluxos entre aplicativos (extrair valor de PDF, atualizar planilha, enviar e-mail)
Sequências multi-app de longo horizonte, exigindo raciocínio e manutenção de contexto

O Holo3-122B-A10B atinge 78,85% no OSWorld-Verified. Para comparação: até recentemente, 40% era considerado topo de linha; modelos anteriores de Anthropic e OpenAI ficavam entre 60-65%.

Nos Benchmarks Corporativos Internos da H Company (486 tarefas em E-commerce, negócios, colaboração e multi-app), o Holo3 se destaca em fluxos multi-aplicativo — coordenando dados entre vários sistemas.

Como o Holo3 foi treinado: o Ciclo de Aprendizagem Agêntico

Ao contrário de modelos baseados só em demonstrações estáticas, o Holo3 foi treinado num ciclo contínuo chamado Ciclo de Aprendizagem Agêntico:

Dados de Navegação Sintéticos – Instruções humanas e geradas criam exemplos específicos de navegação.
Aumento Fora do Domínio – Os cenários são expandidos para cobrir estados de UI inesperados e casos de borda.
Aprendizado por Reforço Curado – Cada amostra é filtrada e usada em pipeline de RL para maximizar a taxa de conclusão de tarefas.

O treinamento ocorre na Fábrica de Ambientes Sintéticos: agentes criam apps web completos baseados em cenários, com tarefas verificáveis e validação ponta-a-ponta. Isso garante aprendizado em workflows realistas e não exemplos simplificados.

O resultado: o Holo3 supera modelos Qwen3.5 com mais parâmetros nos mesmos benchmarks. A metodologia de treinamento é o diferencial.

Como chamar a API do Holo3

A API do Holo3 segue o padrão de loop: captura de tela → ação → repetir. Veja como integrar:

1. Configurar autenticação

# Base URL da API H Company
https://api.hcompany.ai/v1

# Headers
Authorization: Bearer YOUR_API_KEY
Content-Type: application/json

Obtenha sua chave de API em hcompany.ai/holo-models-api. O nível gratuito cobre o Holo3-35B-A3B.

2. Enviar uma captura de tela com tarefa

import base64
import httpx
import pyautogui

screenshot = pyautogui.screenshot()
screenshot.save("/tmp/screen.png")

with open("/tmp/screen.png", "rb") as f:
    image_b64 = base64.b64encode(f.read()).decode()

response = httpx.post(
    "https://api.hcompany.ai/v1/computer-use",
    headers={"Authorization": "Bearer YOUR_API_KEY"},
    json={
        "model": "holo3-122b-a10b",
        "task": "Open the invoice folder and find the most recent PDF",
        "screenshot": image_b64,
        "screen_width": 1920,
        "screen_height": 1080
    }
)

action = response.json()
print(action)

3. Analisar e executar a ação retornada

A resposta traz ações estruturadas para executar na máquina host:

{
  "action_type": "click",
  "coordinate": [245, 380],
  "reasoning": "The invoice folder icon is visible at this position"
}

Tipos comuns: click, double_click, right_click, type, key, scroll, screenshot_request (se o modelo precisar de nova visão), e task_complete.

4. Repetir até a tarefa ser concluída

def run_computer_use_task(task: str, max_steps: int = 20):
    for step in range(max_steps):
        screenshot = capture_screen()
        response = call_holo3_api(task, screenshot)
        action = response["action"]

        if action["action_type"] == "task_complete":
            print(f"Done in {step + 1} steps")
            return response["result"]

        execute_action(action)

    raise TimeoutError("Task not completed within step limit")

Testando chamadas da API do Holo3 com Apidog

Ao integrar a API do Holo3, valide sua automação para garantir estabilidade. O Apidog facilita esse processo.

Importar o endpoint:

No Apidog, crie uma requisição HTTP para https://api.hcompany.ai/v1/computer-use. Use variáveis de ambiente para as chaves de autenticação.

Configurar validação de resposta:

Adicione asserções de teste no Apidog para checar a estrutura das respostas:

// No script pós-resposta do Apidog
pm.test("Action type is valid", () => {
    const validActions = ["click", "type", "key", "scroll", "task_complete", "screenshot_request"];
    pm.expect(validActions).to.include(pm.response.json().action.action_type);
});

pm.test("Coordinates are within screen bounds", () => {
    const action = pm.response.json().action;
    if (action.coordinate) {
        pm.expect(action.coordinate[0]).to.be.within(0, 1920);
        pm.expect(action.coordinate[1]).to.be.within(0, 1080);
    }
});

Simular a API durante o desenvolvimento:

Use o Smart Mock do Apidog para gerar respostas realistas do Holo3 sem consumir créditos da API real. Isso permite desenvolver e testar o frontend ou orquestração em paralelo.

Executar cenários de teste:

Encadeie múltiplas requisições do Holo3 em um Cenário de Teste do Apidog para simular fluxos multi-etapas. Assim, você valida a sequência de ações antes de rodar em ambiente real.

Holo3 vs. Claude Computer Use vs. OpenAI Operator

	Holo3-122B	Holo3-35B	Claude Computer Use	OpenAI Operator
OSWorld-Verified	78,85%	~55% (est.)	~65%	~62%
Acesso à API	Sim	Sim (grátis)	Sim	Sim
Pesos abertos	Não	Sim (Apache 2.0)	Não	Não
Auto-hospedável	Não	Sim	Não	Não
Custo vs. GPT-5.4	Menor	Muito menor	Comparável	Preço do GPT-5.4
Melhor para	Produção	Dev/teste/OSS	Ecossistema Anthropic	Ecossistema OpenAI

A escolha depende do seu stack:

Holo3-122B: máxima precisão para produção crítica em fluxos multi-app.
Holo3-35B: ideal para desenvolvimento, testes, projetos open source, ou se quiser hospedar localmente.
Claude Computer Use: integração direta no ecossistema Anthropic.
OpenAI Operator: se já usa GPT-5.4 e quer unificar fornecedores.

Casos de uso empresariais

O Holo3 resolve fluxos de trabalho que não têm integração limpa via API:

Entrada de dados em sistemas legados: ERPs ou CRMs antigos, sem API REST. O Holo3 interage direto na UI.
Reconciliação entre plataformas: Extrair dados de PDF, validar em planilha, atualizar painel externo — tudo autônomo.
Testes de regressão web: Esqueça scripts Selenium frágeis. Descreva a tarefa em linguagem natural e o Holo3 executa, adaptando-se a mudanças na UI.
Inteligência competitiva: Extraia dados estruturados de sites que bloqueiam scraping tradicional.

Benchmarks internos mostram o Holo3 com desempenho consistente em E-commerce, Negócios, Colaboração e especialmente Multi-App, onde a metodologia de treinamento se destaca.

Próximos passos: Agência Adaptativa

O próximo objetivo da H Company é a Agência Adaptativa — modelos capazes de navegar em softwares empresariais inéditos, aprendendo a UI em tempo real, sem depender de dados prévios do ambiente.

Os modelos atuais, incluindo o Holo3, ainda dependem de ambientes conhecidos para desempenho ideal. Com Agência Adaptativa, o modelo construiria um modelo funcional do software ao interagir pela primeira vez, eliminando a última limitação para automação IA total em empresas.

Conclusão

O Holo3 eleva o padrão de automação desktop: atinge 78,85% no OSWorld-Verified e supera alternativas Claude e GPT em tarefas multi-etapas complexas. O modelo Holo3-35B-A3B é gratuito e open-weight (Apache 2.0), facilitando testes e validação por desenvolvedores.

A integração é direta: capture a tela, envie via POST para a API, execute a ação recebida e repita. O Apidog torna esse ciclo confiável — validando respostas, simulando durante o desenvolvimento e encadeando cenários de teste.

Se você constrói automação para GUIs de desktop, experimente o Apidog gratuitamente e valide sua integração Holo3 antes de entrar em produção.

FAQ

O que é Holo3?

O Holo3 é um modelo de IA de uso de computador da H Company que recebe capturas de tela como entrada e retorna ações (cliques, toques de tecla, rolagens) para completar tarefas em um desktop ou navegador. Ele alcança 78,85% no benchmark OSWorld-Verified, o resultado mais alto registrado nesse teste.

O Holo3 é de código aberto?

A variante menor, Holo3-35B-A3B, é open-weight (licença Apache 2.0) e disponível no HuggingFace. O Holo3-122B-A10B é apenas via API. Ambos estão acessíveis via API da H Company, com nível gratuito para o 35B.

Como funciona o benchmark OSWorld?

O OSWorld testa agentes de IA em tarefas reais: navegação web, gerenciamento de arquivos, fluxos multi-aplicativo. A verificação é feita pelo estado real do sistema após execução, não apenas saída textual.

Como o Holo3 se compara ao Claude Computer Use?

O Holo3-122B pontua mais alto no OSWorld-Verified (78,85% vs. ~65% para Claude) e tem custo menor por tarefa. Claude Computer Use é vantajoso para equipes já integradas ao ecossistema Anthropic.

Posso executar o Holo3 localmente?

Sim, usando o Holo3-35B-A3B — pesos disponíveis no HuggingFace sob Apache 2.0. O 122B é apenas via API.

Principais casos de uso para APIs de uso de computador?

Automação de sistemas legados, fluxos multi-app de dados, testes de regressão web sem seletores frágeis, inteligência competitiva e qualquer workflow desktop que hoje exige intervenção manual.

Como testar minha integração da API do Holo3?

Use o Apidog para importar endpoints, configurar validações de resposta, simular a API e encadear testes. Isso identifica problemas antes de rodar automação em produção.

O que é "Agência Adaptativa" no roadmap do Holo3?

Modelos capazes de navegar em softwares empresariais inéditos, aprendendo a UI em tempo real, sem depender de dados de treinamento prévios — eliminando o maior gargalo da automação IA em empresas.

DEV Community