Sebastian Petrus

Posted on Apr 2 • Originally published at apidog.com

Holo3: Mô Hình Sử Dụng Máy Tính Tốt Nhất?

Tóm tắt

H Company đã ra mắt Holo3 vào ngày 31 tháng 3 năm 2026, một mô hình "hỗn hợp chuyên gia" đạt 78.85% trên OSWorld-Verified, điểm số cao nhất từng được ghi nhận trên chuẩn mực hàng đầu về sử dụng máy tính để bàn. Nó vượt trội hơn GPT-5.4 và Opus 4.6 với chi phí chỉ bằng một phần nhỏ. API hiện đã hoạt động, và biến thể 35B là mã nguồn mở trên HuggingFace theo giấy phép Apache 2.0.

Dùng thử Apidog ngay hôm nay

Khoảng cách trong việc sử dụng máy tính mà hầu hết các nhà phát triển chưa giải quyết được

Bạn đã tự động hóa các API của mình, hệ thống CI/CD của bạn vận hành ổn định. Tuy nhiên vẫn còn nhiều quy trình bị chặn bởi các phần mềm doanh nghiệp cũ không có API, ứng dụng máy tính để bàn ra đời trước REST, hoặc quy trình làm việc phải đi qua nhiều giao diện người dùng khác nhau.

Các công cụ RPA truyền thống như UiPath hay Automation Anywhere phụ thuộc vào các kịch bản tọa độ màn hình rất dễ vỡ khi giao diện thay đổi. Giải pháp phổ biến là làm thủ công.

Ngày nay, AI sử dụng máy tính có thể xem ảnh chụp màn hình và tự động thực hiện các hành động như nhấp, gõ, cuộn trên bất kỳ giao diện đồ họa nào, không cần API. Holo3 là mô hình mạnh nhất hiện nay cho tác vụ này, đã chính thức phát hành và sẵn sàng tích hợp.

💡 Nếu bạn xây dựng workflow tự động hóa hoặc kiểm thử pipeline liên quan tới phần mềm máy tính để bàn, nên thử ngay API của Holo3. Nếu bạn sử dụng Apidog để thiết kế và kiểm thử API, các phần dưới sẽ hướng dẫn tích hợp gọi Holo3 vào quy trình của bạn.

Holo3 là gì?

Holo3 là mô hình AI sử dụng máy tính: bạn gửi ảnh chụp màn hình desktop hoặc browser, mô tả tác vụ, và nhận về các hành động (click, gõ phím, cuộn) để thực hiện trên màn hình. Quy trình: chụp kết quả, gửi lại, lặp lại đến khi hoàn thành.

H Company cung cấp:

Holo3-122B-A10B: Phiên bản mạnh nhất, 122B tham số (10B hoạt động, MoE thưa). Truy cập qua API tại hcompany.ai/holo-models-api. Đạt kỷ lục benchmark.
Holo3-35B-A3B: 35B tham số, 3B hoạt động. Mã nguồn mở trên HuggingFace (Apache 2.0). Có gói miễn phí qua API, hỗ trợ tự lưu trữ.

Kiến trúc MoE giúp chỉ kích hoạt một phần tham số/mỗi token, giảm chi phí vận hành so với tổng số tham số. H Company khẳng định Holo3-122B-A10B có chi phí thấp hơn GPT-5.4 và Opus 4.6 trên mỗi tác vụ.

OSWorld-Verified: Chuẩn mực thực tế cho sử dụng máy tính

OSWorld-Verified là benchmark hàng đầu đánh giá AI sử dụng máy tính. Khác với các benchmark chỉ chấm đầu ra văn bản, OSWorld kiểm tra tác vụ thực tế: agent phải hoàn thành tác vụ trên máy tính thật, xác minh bằng trạng thái hệ thống sau khi thực thi.

Phạm vi tác vụ:

Tác vụ một ứng dụng: mở file, điền form, sao chép dữ liệu giữa các ô
Quy trình đa ứng dụng: lấy dữ liệu từ PDF, cập nhật bảng tính, gửi email xác nhận
Chuỗi dài yêu cầu phối hợp nhiều hệ thống không mất ngữ cảnh

Holo3-122B-A10B đạt 78.85% trên OSWorld-Verified. Trước đây, điểm trên 40% đã là tiên tiến. Anthropic và OpenAI từng dẫn đầu với khoảng 60-65%.

Các benchmark nội bộ của H Company (H Corporate Benchmarks) trên 486 tác vụ thương mại điện tử, phần mềm doanh nghiệp, hợp tác và workflow đa ứng dụng cho thấy Holo3 đặc biệt mạnh ở workflow đa ứng dụng (phối hợp nhiều ứng dụng cùng lúc).

Holo3 được đào tạo như thế nào: Chu trình học tập Agentic

Hầu hết các mô hình sử dụng máy tính chỉ được đào tạo trên dữ liệu tĩnh. H Company xây dựng chu trình học tập Agentic gồm:

Dữ liệu điều hướng tổng hợp: Hướng dẫn người thật + dữ liệu tổng hợp tạo các ví dụ điều hướng cụ thể.
Mở rộng ngoài miền: Mở rộng kịch bản để mô hình gặp các UI state bất ngờ, case biên.
Học tăng cường được tuyển chọn: Dữ liệu được chọn lọc và đưa vào pipeline RL để tối đa hóa tỉ lệ hoàn thành tác vụ.

Dữ liệu học lấy từ Nhà máy môi trường tổng hợp - nơi agent tự code ứng dụng web doanh nghiệp giả lập, với tác vụ có thể xác minh end-to-end. Nhờ vậy, mô hình học trên workflow thực tế thay vì ví dụ đơn giản.

Kết quả: Holo3 vượt xa các mô hình lớn hơn về tham số như Qwen3.5 trên cùng benchmark, nhờ phương pháp huấn luyện thay vì chỉ dựa vào quy mô mô hình.

Cách gọi API Holo3

API Holo3 tuân theo mô hình vòng lặp chụp màn hình - hành động. Quy trình thực tế như sau:

1. Thiết lập xác thực

# API base URL
https://api.hcompany.ai/v1

# Header
Authorization: Bearer YOUR_API_KEY
Content-Type: application/json

Lấy API key tại hcompany.ai/holo-models-api. Gói miễn phí hỗ trợ Holo3-35B-A3B.

2. Gửi ảnh chụp màn hình và tác vụ

import base64
import httpx
import pyautogui

screenshot = pyautogui.screenshot()
screenshot.save("/tmp/screen.png")

with open("/tmp/screen.png", "rb") as f:
    image_b64 = base64.b64encode(f.read()).decode()

response = httpx.post(
    "https://api.hcompany.ai/v1/computer-use",
    headers={"Authorization": "Bearer YOUR_API_KEY"},
    json={
        "model": "holo3-122b-a10b",
        "task": "Open the invoice folder and find the most recent PDF",
        "screenshot": image_b64,
        "screen_width": 1920,
        "screen_height": 1080
    }
)

action = response.json()
print(action)

3. Phân tích cú pháp và thực thi hành động

API trả về các hành động dạng JSON:

{
  "action_type": "click",
  "coordinate": [245, 380],
  "reasoning": "The invoice folder icon is visible at this position"
}

Các loại hành động gồm: click, double_click, right_click, type, key, scroll, screenshot_request, task_complete.

4. Lặp lại cho đến khi hoàn thành

def run_computer_use_task(task: str, max_steps: int = 20):
    for step in range(max_steps):
        screenshot = capture_screen()
        response = call_holo3_api(task, screenshot)
        action = response["action"]

        if action["action_type"] == "task_complete":
            print(f"Done in {step + 1} steps")
            return response["result"]

        execute_action(action)

    raise TimeoutError("Task not completed within step limit")

Kiểm thử các lệnh gọi API Holo3 với Apidog

Sau khi tích hợp API Holo3, bạn cần xác thực tích hợp hoạt động ổn định. Apidog giúp tự động hóa kiểm thử nhanh chóng.

Nhập endpoint: Trong Apidog, tạo HTTP request tới https://api.hcompany.ai/v1/computer-use. Thêm header Authorization dưới dạng biến môi trường.

Thiết lập xác nhận kiểm thử: Sử dụng script kiểm thử phản hồi để kiểm tra cấu trúc trả về:

// In Apidog's post-response script
pm.test("Action type is valid", () => {
    const validActions = ["click", "type", "key", "scroll", "task_complete", "screenshot_request"];
    pm.expect(validActions).to.include(pm.response.json().action.action_type);
});

pm.test("Coordinates are within screen bounds", () => {
    const action = pm.response.json().action;
    if (action.coordinate) {
        pm.expect(action.coordinate[0]).to.be.within(0, 1920);
        pm.expect(action.coordinate[1]).to.be.within(0, 1080);
    }
});

Giả lập API khi phát triển: Dùng Smart Mock của Apidog để giả lập phản hồi Holo3, tiết kiệm tín dụng API và cho phép frontend/backend phát triển song song.

Chạy kịch bản kiểm thử: Xâu chuỗi nhiều request Holo3 trong một Kịch bản kiểm thử Apidog để mô phỏng workflow nhiều bước, kiểm tra tính nhất quán trước khi chạy thật.

Holo3 so với Claude Computer Use so với OpenAI Operator

	Holo3-122B	Holo3-35B	Claude Computer Use	OpenAI Operator
OSWorld-Verified	78.85%	~55%	~65%	~62%
Truy cập API	Có	Có (free)	Có	Có
Mã nguồn mở	Không	Có	Không	Không
Tự lưu trữ	Không	Có	Không	Không
Chi phí so với GPT-5.4	Thấp hơn	Thấp hơn nhiều	Tương đương	Như GPT-5.4
Tốt nhất cho	Sản xuất	Dev/OSS	Anthropic users	OpenAI users

Lựa chọn thực tế:

Holo3-122B: Độ chính xác tối đa, workflow đa ứng dụng phức tạp, chi phí không phải vấn đề lớn.
Holo3-35B: Phù hợp phát triển, kiểm thử, dự án mã nguồn mở, hoặc tự lưu trữ.
Claude Computer Use: Nếu bạn đã dùng nhiều dịch vụ Anthropic.
OpenAI Operator: Nếu hệ thống của bạn tiêu chuẩn hóa trên GPT-5.4.

Các trường hợp sử dụng trong doanh nghiệp

Holo3 giải quyết các workflow không có API rõ ràng:

Nhập dữ liệu hệ thống cũ: ERP/CRM đời cũ không có REST API. Holo3 thao tác trực tiếp UI desktop.
Đối chiếu đa nền tảng: Trích dữ liệu từ PDF, kiểm tra với bảng tính, cập nhật dashboard bên thứ ba.
Kiểm thử hồi quy ứng dụng web: Không cần script Selenium dễ vỡ, chỉ cần mô tả tác vụ bằng tự nhiên ngữ.
Thông tin cạnh tranh: Trích xuất dữ liệu có cấu trúc từ web chống scraping.

Các benchmark doanh nghiệp nội bộ cho thấy Holo3 mạnh nhất ở workflow đa ứng dụng, nơi cần phối hợp nhiều ứng dụng mà không mất context.

Điều gì tiếp theo: Cơ chế thích ứng

H Company đang tập trung vào Cơ chế thích ứng – cho phép mô hình không chỉ sử dụng phần mềm từng thấy mà còn tự học cách vận hành phần mềm hoàn toàn mới, chưa từng huấn luyện, trong thời gian thực.

Hiện tại, mọi mô hình (kể cả Holo3) đều huấn luyện trên một tập hợp hữu hạn các môi trường phần mềm. Khi gặp phần mềm nội bộ tùy chỉnh, tỉ lệ thành công giảm. Cơ chế thích ứng sẽ giúp mô hình xây dựng hiểu biết về UI ngay lần đầu, không cần dữ liệu training trước.

Nếu thành công, AI sử dụng máy tính sẽ không còn giới hạn triển khai cho doanh nghiệp.

Kết luận

Holo3 đặt ra tiêu chuẩn mới cho tự động hóa GUI desktop. Với 78.85% OSWorld-Verified, nó vượt xa Claude và GPT ở workflow phức tạp. Gói miễn phí Holo3-35B-A3B và mã nguồn mở giúp thử nghiệm dễ dàng, không rào cản chi phí.

Tích hợp rất đơn giản: chụp màn hình, POST tới API, thực thi action trả về, lặp lại. Apidog giúp kiểm thử API tự động, giả lập phát triển, chuỗi workflow kiểm thử trước khi triển khai production.

Nếu bạn xây dựng workflow liên quan GUI desktop, hãy dùng thử Apidog miễn phí và kiểm thử tích hợp Holo3 trước khi đưa vào sản xuất.

Câu hỏi thường gặp

Holo3 là gì?

Holo3 là AI sử dụng máy tính từ H Company, nhận input ảnh chụp màn hình và trả về hành động (click, gõ, cuộn) để hoàn thành tác vụ trên desktop hoặc browser. Đạt 78.85% OSWorld-Verified – cao nhất tính đến nay.

Holo3 có phải mã nguồn mở?

Holo3-35B-A3B là mã nguồn mở (Apache 2.0), tải từ HuggingFace. Holo3-122B-A10B chỉ có qua API. Cả hai đều có API inference, 35B miễn phí.

OSWorld benchmark hoạt động thế nào?

OSWorld kiểm tra agent trên tác vụ thật: duyệt web, quản lý file, workflow đa ứng dụng. Thành công xác minh qua trạng thái hệ thống, không phải văn bản đầu ra.

Holo3 so với Claude Computer Use thế nào?

Holo3-122B đạt điểm cao hơn trên OSWorld-Verified (78.85% vs ~65% Claude), chi phí thấp hơn mỗi tác vụ. Claude vẫn mạnh nếu bạn dùng hệ sinh thái API Anthropic.

Có thể chạy Holo3 cục bộ không?

Có, với Holo3-35B-A3B. Trọng số tải ở HuggingFace (Apache 2.0). 122B chỉ có qua API.

Ứng dụng chính của API sử dụng máy tính?

Tự động hóa hệ thống cũ, workflow đa ứng dụng, kiểm thử hồi quy web không cần selector, thu thập thông tin cạnh tranh, bất kỳ workflow desktop nào yêu cầu thao tác người thật.

Cách kiểm thử tích hợp API Holo3?

Dùng Apidog: nhập endpoint, thiết lập xác thực phản hồi, giả lập API khi phát triển, xâu chuỗi các request thành kịch bản kiểm thử. Phát hiện lỗi tích hợp trước khi chạy thật.

"Cơ chế thích ứng" trong roadmap Holo3 là gì?

H Company nghiên cứu mô hình có thể sử dụng phần mềm hoàn toàn mới, học cấu trúc UI theo thời gian thực thay vì đòi hỏi dữ liệu training trước. Đây là bước loại bỏ giới hạn lớn nhất của AI sử dụng máy tính cho doanh nghiệp tuỳ chỉnh.

DEV Community