Bài viết kỹ thuật

Introduction

Bước tiến mới nhất trong tầm nhìn của chúng tôi về Autonomous Enterprise. Với điểm số 78.85% trên benchmark OSWorld-Verified, Holo3 đã thiết lập trạng thái tốt nhất mới của ngành trên benchmark hàng đầu về khả năng sử dụng máy tính để bàn.
Holo3 không chỉ là mô hình dẫn đầu benchmark; nó được thiết kế cho production. Được xây dựng bằng agentic flywheel của chúng tôi, mô hình này đã được huấn luyện để thực thi các Workflow thực tế trong các môi trường doanh nghiệp tổng hợp. Điều này không chỉ đảm bảo rằng Holo3 vượt trội trong các kịch bản kinh doanh ngày nay, mà còn đặt nền tảng cho tương lai nơi các agent của chúng tôi có thể tự động điều hướng gần như mọi bối cảnh số.
Tốt hơn nữa, Holo3 đạt được điều này chỉ với 10B tham số hoạt động (122B tổng cộng), nên chi phí chỉ bằng một phần nhỏ so với các mô hình độc quyền quy mô lớn như GPT 5.4 hoặc Opus 4.6. Tất cả mô hình đều có sẵn thông qua Inference API. Trọng số Holo3-35B-A3B được công khai trên Hugging Face theo giấy phép Apache2 và cũng có thể truy cập miễn phí thông qua inference API của chúng tôi trong free tier.

Agentic Learning Flywheel

Điều khiến Holo3 khác biệt là pipeline huấn luyện chuyên biệt của nó—một vòng phản hồi liên tục được thiết kế để nâng cao hai trụ cột cốt lõi của agent: nhận thức và ra quyết định.
Flywheel huấn luyện của chúng tôi tập trung vào việc dạy mô hình từ các ví dụ đã được gán nhãn cách thực thi những tác vụ cụ thể, đồng thời phát triển năng lực tổng quát trên gần như vô hạn loại giao diện người dùng. Đây là cách chúng tôi xây dựng các mô hình sử dụng máy tính đẳng cấp thế giới:

Dữ liệu điều hướng tổng hợp: sử dụng hướng dẫn từ con người và hướng dẫn được sinh ra, chúng tôi tạo ra các ví dụ điều hướng theo từng kịch bản cụ thể.
Mở rộng ngoài miền dữ liệu: chúng tôi mở rộng các kịch bản theo chương trình và tăng cường dữ liệu để đảm bảo Holo3 có thể xử lý các tình huống bất ngờ.
Reinforcement Learning được tuyển chọn: mọi mẫu dữ liệu đều được tuyển chọn cẩn thận và đưa vào pipeline tận dụng lọc dữ liệu nâng cao cùng reinforcement learning để tối đa hóa hiệu năng.

Ngoài các điểm số thô, kết quả OSWorld đóng vai trò như một minh chứng khái niệm rõ ràng cho flywheel học tập của chúng tôi. Để xác thực khả năng chuyển giao sang các ứng dụng kinh doanh thực tế, chúng tôi đã tạo ra Synthetic Environment Factory.

Synthetic Environment Factory & H Corporate Benchmarks

Factory độc quyền này tái tạo hiện thực của các hệ thống doanh nghiệp và là một trong những “phòng tập” huấn luyện nơi Holo3 được rèn luyện. Các môi trường của chúng tôi được xây dựng tự động bằng các coding agent lập trình website từ đầu dựa trên đặc tả kịch bản, tạo ra các tác vụ có thể xác minh với độ khó khác nhau và được kiểm chứng đầu-cuối bằng các script xác minh.
Để đo lường mức độ sẵn sàng cho thực tế, chúng tôi cũng thiết kế H Corporate Benchmarks, một bộ đánh giá chuyên biệt gồm 486 tác vụ thực tế nhiều bước trải rộng trên 4 nhóm: E-commerce, phần mềm doanh nghiệp, cộng tác và nhiều thiết lập Multi-App khác nhau.
Benchmark này bao phủ toàn bộ phổ độ phức tạp: từ các tác vụ tập trung trong một ứng dụng đến các Workflow nhiều ứng dụng, dài hạn phản ánh cách công việc thực sự được hoàn thành. Ở đầu khó hơn của thang đo (Multi-Apps), các tác vụ yêu cầu agent phối hợp thông tin trên nhiều hệ thống đồng thời—ví dụ: truy xuất giá thiết bị từ một file PDF, đối chiếu với ngân sách còn lại của từng nhân viên và tự động gửi email phê duyệt hoặc từ chối được cá nhân hóa cho từng người. Kiểu tác vụ này đòi hỏi không chỉ tính toán chính xác và phân tích tài liệu, mà còn cần suy luận nhiều bước bền vững xuyên suốt các ứng dụng mà không làm mất trạng thái hoặc mục tiêu.
Ví dụ về các môi trường tổng hợp được tạo ra để huấn luyện Holo3
Trong các kết quả bên dưới, chúng ta thấy Holo3 vượt qua các đối thủ trên các benchmark ứng dụng đơn. Chênh lệch hiệu năng giữa Holo3 và các mô hình Qwen3.5 nền tảng phản ánh tác động của agentic learning flywheel của chúng tôi. Bằng việc đạt tỷ lệ thành công cao hơn các mô hình có số lượng tham số lớn hơn đáng kể—trong khi vẫn duy trì cùng tiêu chuẩn định vị và grounding—Holo3 cho thấy quy mô tác động thực sự của quy trình huấn luyện chuyên biệt này.

Hướng tới năng lực tác tử phổ quát

Holo3 là một cột mốc, nhưng không phải đích đến. Bằng cách xây dựng một hệ thống có thể nhìn, suy luận và hành động trong nền tảng số của khách hàng, chúng tôi đang biến Autonomous Enterprise thành hiện thực.
Khi "Synthetic Environment Factory" của chúng tôi tiếp tục phát triển, các agent cũng đang học cách xử lý những tác vụ ngày càng phức tạp hơn. Trong khi Holo3 hiện đã làm chủ giao diện, chúng tôi đã bắt tay vào biên giới tiếp theo: Adaptive Agency, nơi các mô hình của chúng tôi không chỉ sử dụng các công cụ mà chúng đã biết mà còn có thể tự chủ học cách điều hướng các phần mềm doanh nghiệp hoàn toàn mới, được thiết kế riêng, theo thời gian thực.

DEV Community

Bài viết kỹ thuật

Introduction

Agentic Learning Flywheel

Synthetic Environment Factory & H Corporate Benchmarks

Hướng tới năng lực tác tử phổ quát

Top comments (0)