خلاصة القول
أطلقت شركة H Company نموذجها Holo3 في 31 مارس 2026، وهو نموذج "خليط من الخبراء" (mixture-of-experts) حقق نسبة 78.85% على معيار OSWorld-Verified، وهي أعلى نتيجة تسجل على الإطلاق في معيار استخدام الحاسوب المكتبي الرائد. يتفوق هذا النموذج على GPT-5.4 و Opus 4.6 بجزء صغير من التكلفة. واجهة برمجة التطبيقات (API) متاحة الآن، والنسخة 35B مفتوحة الأوزان على HuggingFace تحت ترخيص Apache 2.0.
فجوة استخدام الحاسوب التي لم يحلها معظم المطورين
حتى لو كنت قد أتمتت واجهات برمجة التطبيقات (APIs) وخط أنابيب CI/CD لديك يعمل بسلاسة، تظل بعض المهام المؤسسية معقدة: تطبيقات قديمة بلا API، أو برامج سطح مكتب أقدم من REST، أو سير عمل متعدد الخطوات عبر عدة واجهات. أدوات RPA التقليدية (مثل UiPath وAutomation Anywhere) تعتمد على إحداثيات الشاشة وتتعطل عند أي تغيير في واجهة المستخدم.
الذكاء الاصطناعي لاستخدام الحاسوب يغيّر هذه القاعدة. الآن يمكنك استخدام نموذج "يرى" لقطة الشاشة ويصدر إجراءات للنقر والكتابة والتمرير على أي واجهة رسومية (GUI) بدون الحاجة لأي API. نموذج Holo3 من H Company هو حالياً الأقوى في هذه الفئة.
💡 إذا كنت تبني سير عمل أتمتة أو خطوط اختبار لتطبيقات سطح المكتب، عليك فهم واجهة برمجة تطبيقات Holo3 الآن. إذا كنت تستخدم Apidog لتصميم واختبار APIs الخاصة بك، ستجد أدناه تفاصيل دمج استدعاءات Holo3 في سير عملك.
ما هو Holo3؟
Holo3 هو نموذج استخدام حاسوب: تعطيه لقطة شاشة لسطح المكتب أو المتصفح مع وصف المهمة المطلوبة، ويعيد لك تسلسل إجراءات (نقرات، ضغطات مفاتيح، أوامر تمرير) لتنفيذ المهمة. تلتقط النتيجة، ثم تكرر الدورة حتى تكتمل المهمة.
نسخ Holo3:
- Holo3-122B-A10B: النموذج الرائد، 122 مليار معلمة، 10 مليار نشطة (MoE متفرق). متاح عبر واجهة API مستضافة فقط على hcompany.ai/holo-models-api. الأعلى في المعايير.
- Holo3-35B-A3B: 35 مليار معلمة، 3 مليار نشطة. مفتوح الأوزان على HuggingFace بترخيص Apache 2.0. متاح مجاناً عبر API وقابل للاستضافة الذاتية.
ميزة MoE: فقط جزء صغير من المعلمات نشط لكل رمز، ما يجعل التشغيل أرخص بكثير من النماذج التقليدية. H Company تذكر أن كلفة Holo3-122B-A10B أقل من GPT-5.4 وOpus 4.6 لكل مهمة.
OSWorld-Verified: ماذا يقيس المعيار فعلاً؟
OSWorld-Verified هو المعيار الأساسي لقياس أداء الذكاء الاصطناعي في استخدام الحاسوب. بعكس المعايير النصية، هنا يجب على النموذج إكمال مهام حقيقية على حاسوب فعلي، ويتم التحقق من النجاح بفحص حالة النظام بعد التنفيذ.
أنواع المهام:
- تطبيق واحد (فتح ملف، تعبئة نموذج، إلخ)
- سير عمل عبر تطبيقات (استخراج من PDF، تحديث جدول بيانات، إرسال بريد إلكتروني)
- تسلسلات طويلة عبر أنظمة متعددة تتطلب استنتاج وسياق
Holo3-122B-A10B سجل 78.85%، بينما كانت النماذج الرائدة سابقاً (Anthropic, OpenAI) بين 60-65%.
أداء Holo3 يبرز خاصة في مهام التطبيقات المتعددة (multi-app workflows).
كيف تم تدريب Holo3: عجلة التعلم القائم على الوكيل
بدلاً من التدريب على أمثلة ثابتة، اعتمدت H Company على "عجلة التعلم القائم على الوكيل":
- بيانات تنقل اصطناعية: تعليمات بشرية ومولدة لإنتاج أمثلة تنقل متنوعة.
- توسيع خارج النطاق: رفع تغطية السيناريوهات برمجياً لتشمل الحالات النادرة وغير المتوقعة.
- تعلم معزز منسق: تصفية واستخدام كل عينة في مسار تعلم معزز (RL) لتحسين معدل إكمال المهام مباشرة.
مصدر البيانات الأساسي هو مصنع بيئات اصطناعية حيث يتم بناء تطبيقات مؤسسات واقعية من الصفر، مع مهام ونصوص تحقق شاملة.
النتيجة: يتفوق Holo3 على نماذج أكبر من Qwen3.5 في نفس المهام، وذلك بفضل منهجية التدريب وليس فقط البنية.
كيفية استدعاء واجهة برمجة تطبيقات Holo3
واجهة البرمجة تعتمد دورة لقطة شاشة → إجراء → تكرار. اتبع هذا التسلسل العملي:
1. إعداد المصادقة
# عنوان واجهة API
https://api.hcompany.ai/v1
# الرؤوس المطلوبة
Authorization: Bearer YOUR_API_KEY
Content-Type: application/json
احصل على مفتاح API من hcompany.ai/holo-models-api. الطبقة المجانية تغطي Holo3-35B-A3B.
2. إرسال لقطة شاشة مع وصف المهمة
import base64
import httpx
import pyautogui
# التقاط الشاشة
screenshot = pyautogui.screenshot()
screenshot.save("/tmp/screen.png")
with open("/tmp/screen.png", "rb") as f:
image_b64 = base64.b64encode(f.read()).decode()
response = httpx.post(
"https://api.hcompany.ai/v1/computer-use",
headers={"Authorization": "Bearer YOUR_API_KEY"},
json={
"model": "holo3-122b-a10b",
"task": "Open the invoice folder and find the most recent PDF",
"screenshot": image_b64,
"screen_width": 1920,
"screen_height": 1080
}
)
action = response.json()
print(action)
3. تحليل وتنفيذ الإجراء
واجهة API تعيد إجراءً منظماً، يمكنك تنفيذه على الجهاز:
{
"action_type": "click",
"coordinate": [245, 380],
"reasoning": "The invoice folder icon is visible at this position"
}
الأنواع الممكنة: click, double_click, right_click, type, key, scroll, screenshot_request, task_complete.
4. التكرار حتى الاكتمال
def run_computer_use_task(task: str, max_steps: int = 20):
for step in range(max_steps):
screenshot = capture_screen()
response = call_holo3_api(task, screenshot)
action = response["action"]
if action["action_type"] == "task_complete":
print(f"Done in {step + 1} steps")
return response["result"]
execute_action(action)
raise TimeoutError("Task not completed within step limit")
اختبار استدعاءات واجهة برمجة تطبيقات Holo3 باستخدام Apidog
عند دمج Holo3 في الأتمتة، من الضروري التحقق من التكامل باستمرار. Apidog يوفر أدوات فعّالة لذلك.
استيراد نقطة النهاية:
- أنشئ طلب HTTP في Apidog إلى
https://api.hcompany.ai/v1/computer-use. - أضف رأس
Authorizationكمتغير بيئة.
إعداد التحقق من الاستجابة:
- استخدم سكريبتات Apidog لاختبار صحة الاستجابة تلقائياً:
// في سكريبت Apidog بعد الاستجابة
pm.test("Action type is valid", () => {
const validActions = ["click", "type", "key", "scroll", "task_complete", "screenshot_request"];
pm.expect(validActions).to.include(pm.response.json().action.action_type);
});
pm.test("Coordinates are within screen bounds", () => {
const action = pm.response.json().action;
if (action.coordinate) {
pm.expect(action.coordinate[0]).to.be.within(0, 1920);
pm.expect(action.coordinate[1]).to.be.within(0, 1080);
}
});
محاكاة واجهة API أثناء التطوير:
- استخدم ميزة Smart Mock من Apidog لإنشاء استجابات واقعية بدون الحاجة للوصول المباشر لـ Holo3. هذا يوفر التكاليف ويتيح تطوير الواجهة الأمامية بشكل متوازي.
تشغيل سيناريوهات اختبار كاملة:
- اربط عدة استدعاءات Holo3 في سيناريو واحد لمحاكاة حلقة المهام بالكامل، وتحقق من تسلسل الإجراءات قبل تشغيلها على أجهزة الإنتاج.
Holo3 مقابل Claude Computer Use مقابل OpenAI Operator
| Holo3-122B | Holo3-35B | Claude Computer Use | OpenAI Operator | |
|---|---|---|---|---|
| OSWorld-Verified | 78.85% | ~55% (تقديري) | ~65% | ~62% |
| الوصول عبر API | نعم | نعم (مجاني) | نعم | نعم |
| أوزان مفتوحة | لا | نعم (Apache 2.0) | لا | لا |
| قابل للاستضافة الذاتية | لا | نعم | لا | لا |
| التكلفة مقابل GPT-5.4 | أقل | أقل بكثير | مقاربة | تسعيرة GPT-5.4 |
| الأفضل لـ | المؤسسات الإنتاجية | التطوير/الاختبار/المصادر المفتوحة | نظام Anthropic | نظام OpenAI |
اختيارك يعتمد على التقنية:
- Holo3-122B: لأعلى دقة في تطبيقات متعددة الخطوات حين تكون الكلفة ثانوية.
- Holo3-35B: للتطوير، الاختبار، أو الاستضافة الذاتية.
- Claude Computer Use: إذا كنت بالفعل تستخدم بيئة Anthropic.
- OpenAI Operator: إذا كنت تعتمد GPT-5.4 وتريد مورد واحد.
حالات الاستخدام المؤسسي
يغطي Holo3 سيناريوهات لا تملك حلولاً API جاهزة:
- إدخال بيانات في الأنظمة القديمة: ERP/CRM بلا REST API. Holo3 يتنقل في واجهة المستخدم لإدخال أو استخراج البيانات مباشرة.
- المطابقة عبر الأنظمة: استخراج أرقام من PDF، التحقق من جدول بيانات، تحديث لوحة تحكم خارجية.
- اختبار الانحدار لتطبيقات الويب: استبدل سكريبتات Selenium بوصف مهمة طبيعي، وتتكيف مع تغييرات الواجهة تلقائياً.
- الذكاء التنافسي: استخراج من مواقع تمنع الكشط التقليدي.
حالات التطبيقات المتعددة هي حيث يتفوق Holo3 بوضوح على البدائل.
ما التالي: الوكالة التكيفية (Adaptive Agency)
تعمل H Company حالياً على الوكالة التكيفية: نماذج قادرة على تعلم بنية برامج المؤسسات الجديدة في الوقت الفعلي، بدلاً من الاعتماد على بيانات تدريب مسبقة فقط. الهدف هو تجاوز حدود النماذج الحالية في التعامل مع أدوات داخلية أو تطبيقات مخصصة لم ترها من قبل.
إذا نجحت الشركة في هذا، ستختفي آخر عوائق الذكاء الاصطناعي في الأتمتة المؤسسية.
الخلاصة
Holo3 يرفع سقف أتمتة استخدام الحاسوب المكتبي. بدقة 78.85% على OSWorld-Verified، يتفوق عملياً على حلول Claude وGPT في المهام المعقدة متعددة الخطوات. النسخة المجانية (35B) والأوزان المفتوحة تمنح المطورين فرصة الاختبار بدون كلفة مسبقة.
العملية مباشرة: التقط لقطة شاشة، أرسلها عبر POST للواجهة، نفذ الإجراء، وكرر. Apidog يجعل التحقق من التكامل واختبار السيناريوهات أكثر سهولة وموثوقية قبل النشر.
إذا كنت تبني أي أتمتة تتعامل مع واجهات المستخدم الرسومية، استخدم Apidog مجاناً لاختبار تكاملك مع Holo3 قبل وصوله للإنتاج.
الأسئلة الشائعة
ما هو Holo3؟
Holo3 هو نموذج ذكاء اصطناعي لاستخدام الحاسوب من شركة H Company، يأخذ لقطات الشاشة كمدخل ويعيد إجراءات (نقرات، ضغطات مفاتيح، تمرير) لإكمال المهام على سطح المكتب أو المتصفح. يسجل النموذج 78.85% على معيار OSWorld-Verified، وهي أعلى نتيجة مسجلة في هذا الاختبار.
هل Holo3 مفتوح المصدر؟
النسخة الأصغر، Holo3-35B-A3B، مفتوحة الأوزان بموجب ترخيص Apache 2.0 وقابلة للتنزيل من HuggingFace. أما النموذج الرائد Holo3-122B-A10B فهو متاح عبر واجهة برمجة التطبيقات فقط. وكلاهما متاح عبر واجهة برمجة تطبيقات الاستدلال الخاصة بشركة H Company، مع طبقة مجانية لنموذج 35B.
كيف يعمل معيار OSWorld؟
يختبر OSWorld وكلاء الذكاء الاصطناعي في مهام حاسوبية حقيقية — التنقل عبر الويب، إدارة الملفات، سير عمل عبر التطبيقات. يتم التحقق من النجاح عن طريق فحص الحالة الفعلية للنظام بعد تشغيل الوكيل، وليس عن طريق تقييم النص الناتج. تتراوح المهام من عمليات التطبيق الواحد إلى تسلسلات تطبيقات متعددة ذات أفق طويل.
كيف يقارن Holo3 بـ Claude Computer Use؟
يسجل Holo3-122B درجات أعلى في OSWorld-Verified (78.85% مقابل 65% تقريبًا لـ Claude). كما أنه أرخص لكل مهمة. يظل Claude Computer Use خيارًا قويًا للفرق التي تستخدم بالفعل واجهة برمجة تطبيقات Anthropic وترغب في علاقة فوترة واحدة.
هل يمكنني تشغيل Holo3 محليًا؟
نعم، إذا كنت تستخدم Holo3-35B-A3B. الأوزان موجودة على HuggingFace بموجب ترخيص Apache 2.0. نموذج 122B متاح عبر واجهة برمجة تطبيقات الاستدلال فقط.
ما هي حالات الاستخدام الرئيسية لواجهات برمجة تطبيقات استخدام الحاسوب؟
أتمتة الأنظمة القديمة (لا تتوفر واجهة برمجة تطبيقات REST)، سير عمل البيانات عبر التطبيقات، اختبار الانحدار لتطبيقات الويب بدون محددات هشة، كشط الذكاء التنافسي، وأي سير عمل لسطح المكتب يتطلب حاليًا تفاعلًا بشريًا يدويًا.
كيف أختبر تكاملي مع واجهة برمجة تطبيقات Holo3؟
استخدم Apidog لاستيراد نقطة النهاية، وإعداد تأكيدات التحقق من الاستجابة، ومحاكاة واجهة برمجة التطبيقات أثناء التطوير، وربط الطلبات في سيناريوهات اختبار. هذا يكتشف مشكلات التكامل قبل تشغيل الأتمتة على الأجهزة الحية.
ما هي "الوكالة التكيفية" (Adaptive Agency) في خارطة طريق Holo3؟
تعمل شركة H Company على نماذج يمكنها التنقل في برامج المؤسسات التي لم ترها من قبل، وتعلم بنية واجهة المستخدم في الوقت الفعلي بدلاً من الاعتماد على بيانات التدريب المسبقة. سيزيل هذا القيد الرئيسي المتبقي على استخدام الذكاء الاصطناعي في الحاسوب لعمليات النشر المؤسسية المخصصة بالكامل.


Top comments (0)