DEV Community

Cover image for Holo3:最高のコンピューター利用モデル?
Akira
Akira

Posted on • Originally published at apidog.com

Holo3:最高のコンピューター利用モデル?

TL;DR

H Companyは2026年3月31日にHolo3をリリースしました。Holo3は、OSWorld-Verifiedベンチマークで78.85%という過去最高スコアを記録した混合エキスパートモデルです。GPT-5.4やOpus 4.6をコスト効率で上回ります。APIは現在利用可能で、35BバリアントはApache 2.0ライセンスのもとHuggingFaceでオープンウェイトとして公開されています。

Apidogを今すぐ無料で試す

ほとんどの開発者が解決できていないコンピューター利用のギャップ

APIによる自動化やCI/CDパイプラインは多くの現場で標準化されましたが、APIが存在しないレガシーなエンタープライズソフトウェアや、REST以前のデスクトップアプリ、多段階ワークフローなど、従来の自動化では解決できない課題が残っています。

従来RPAツール(UiPath、Automation Anywhere)はUI変更に弱く、座標スクリプトがすぐに壊れるため、最終的には手作業が残りがちでした。

しかし、コンピューター利用AIはこの状況を一変させます。スクリーンショットを入力し、クリック・入力・スクロールなどのアクションをAPIで発行できるため、APIの有無に関係なくあらゆるGUIを自動操作できます。H Companyが2026年3月31日に公開したHolo3は、この分野で最も高性能な公開モデルです。

💡 自動化ワークフローやデスクトップソフトウェアのテストパイプラインを構築している方は、Holo3のAPIを理解する価値があります。ApidogをAPI設計・テストで使っている場合、Holo3の呼び出しをどのようにワークフローへ組み込むか、以下で具体的に解説します。

Holo3とは?

Holo3は、スクリーンショットとタスク指示を入力として受け取り、その画面上で必要なアクション(クリック、キーストローク、スクロール)を返すコンピューター利用AIモデルです。アクションを実行し、結果のスクリーンショットを再度投入してタスク完了までループします。

Holo3 画面例

提供されているバリアントは2種類です:

  • Holo3-122B-A10B: フラッグシップモデル(122Bパラメータ、10Bアクティブ)。hcompany.ai/holo-models-apiでのみAPI提供。最高精度。
  • Holo3-35B-A3B: 35Bパラメータ、3Bアクティブ。Apache 2.0ライセンスでHuggingFaceにオープンウェイト公開。API無料枠あり、セルフホスト可。

MoE(混合エキスパート)アーキテクチャにより、実行コストは総パラメータ数より大幅に安くなります。H CompanyはHolo3-122B-A10BのタスクコストがGPT-5.4やOpus 4.6より低いと発表しています。

OSWorld-Verified: ベンチマークが実際に測定するもの

OSWorld-Verifiedは、AIのコンピューター利用能力を測るベンチマークです。単なるテキスト出力の評価ではなく、AIエージェントが実際にPC上でタスクを完了し、その後のシステム状態で成否を判定します。

対応タスク例:

  • 単一アプリ操作(ファイルオープン、フォーム入力、セル間コピー)
  • クロスアプリワークフロー(PDF→スプレッドシート→メール送信)
  • 長期的なマルチアプリシーケンス(複数システム間で文脈維持が必須な処理)

Holo3-122B-A10BはOSWorld-Verifiedで78.85%を記録。これまでの最先端モデル(Anthropic/OpenAI系)は60-65%台でしたが、Holo3は大きくリードしています。

OSWorld ベンチマーク結果

特にマルチアプリタスクでの強さが、H Companyの社内ベンチマークでも示されています。

Holo3のトレーニング方法: エージェント学習フライホイール

Holo3は、独自の「エージェント学習フライホイール」と呼ばれる継続訓練ループで学習しています。主な流れは以下の通りです。

  1. 合成ナビゲーションデータ: 人間/AIによる指示に基づき、多様なシナリオのナビゲーション例を生成。
  2. ドメイン外拡張: UIの予期せぬ状態やエッジケースをプログラム的に追加。
  3. 強化学習の最適化: タスク完了率を直接最大化するRLパイプラインでデータをフィルタリングし利用。

データは「合成環境ファクトリー」から供給され、コーディングエージェントが仕様からエンタープライズWebアプリを自動生成 → 検証可能な現実的ビジネスタスクで訓練されます。

この手法により、Holo3は単なるパラメータ数では説明できない高精度を実現しています。

Holo3 APIの呼び出し方

Holo3 APIは、スクリーンショットとタスク指示をループで送信・応答する設計です。具体的な実装手順を示します。

1. 認証のセットアップ

# H Company Inference API base URL
https://api.hcompany.ai/v1

# Header
Authorization: Bearer YOUR_API_KEY
Content-Type: application/json
Enter fullscreen mode Exit fullscreen mode

APIキーは hcompany.ai/holo-models-api で取得可能。無料枠は35Bバリアント用です。

2. タスクを伴うスクリーンショットの送信

import base64
import httpx
import pyautogui

# スクリーンショット取得
screenshot = pyautogui.screenshot()
screenshot.save("/tmp/screen.png")

with open("/tmp/screen.png", "rb") as f:
    image_b64 = base64.b64encode(f.read()).decode()

response = httpx.post(
    "https://api.hcompany.ai/v1/computer-use",
    headers={"Authorization": "Bearer YOUR_API_KEY"},
    json={
        "model": "holo3-122b-a10b",
        "task": "Open the invoice folder and find the most recent PDF",
        "screenshot": image_b64,
        "screen_width": 1920,
        "screen_height": 1080
    }
)

action = response.json()
print(action)
Enter fullscreen mode Exit fullscreen mode

3. アクションの解析と実行

APIは次のようなアクションを返します。

{
  "action_type": "click",
  "coordinate": [245, 380],
  "reasoning": "The invoice folder icon is visible at this position"
}
Enter fullscreen mode Exit fullscreen mode

主なアクションタイプ例:

  • click
  • double_click
  • right_click
  • type(文字入力)
  • key(キー操作)
  • scroll
  • screenshot_request(次の画面が必要な場合)
  • task_complete(タスク完了)

4. 完了までループ

def run_computer_use_task(task: str, max_steps: int = 20):
    for step in range(max_steps):
        screenshot = capture_screen()
        response = call_holo3_api(task, screenshot)
        action = response["action"]

        if action["action_type"] == "task_complete":
            print(f"Done in {step + 1} steps")
            return response["result"]

        execute_action(action)

    raise TimeoutError("Task not completed within step limit")
Enter fullscreen mode Exit fullscreen mode

Apidogを使用したHolo3 API呼び出しのテスト

Holo3 API統合時は、特に本番自動化で確実な動作検証が重要です。Apidogを利用すれば、下記のような実践的なテストができます。

  • エンドポイントインポート: Apidogで https://api.hcompany.ai/v1/computer-use に新規HTTPリクエストを作成し、Authorization ヘッダーは環境変数に。
  • リクエスト検証の自動化: Apidogのテストアサーションでレスポンス構造をチェック。
// Apidogのpost-responseスクリプト例
pm.test("Action type is valid", () => {
    const validActions = ["click", "type", "key", "scroll", "task_complete", "screenshot_request"];
    pm.expect(validActions).to.include(pm.response.json().action.action_type);
});

pm.test("Coordinates are within screen bounds", () => {
    const action = pm.response.json().action;
    if (action.coordinate) {
        pm.expect(action.coordinate[0]).to.be.within(0, 1920);
        pm.expect(action.coordinate[1]).to.be.within(0, 1080);
    }
});
Enter fullscreen mode Exit fullscreen mode
  • APIモック: ApidogのスマートモックでHolo3のリアルな応答を生成し、APIクレジット消費なしで統合テスト。
  • 多段階シナリオ: 複数Holo3リクエストをApidogテストで連鎖し、実機投入前にアクションシーケンスの整合性を検証。

Holo3 vs Claude Computer Use vs OpenAI Operator

Holo3-122B Holo3-35B Claude Computer Use OpenAI Operator
OSWorld-Verified 78.85% 約55%(推定) 約65% 約62%
APIアクセス はい はい(無料枠あり) はい はい
オープンウェイト いいえ はい(Apache 2.0) いいえ いいえ
セルフホスト可能 いいえ はい いいえ いいえ
GPT-5.4比較コスト 低い はるかに低い 同等 GPT-5.4価格
最適な用途 本番エンタープライズ 開発/テスト/OSS Anthropic利用者 OpenAI利用者
  • 最高精度・信頼性重視→Holo3-122B
  • 開発/テスト/OSS・セルフホスト→Holo3-35B
  • Anthropic API統合→Claude Computer Use
  • OpenAI API統合→OpenAI Operator

エンタープライズでのユースケース

Holo3はAPI化されていないワークフローの自動化に最適です。

  • レガシーシステム自動化: REST APIなしのERP/CRM等へのデータ入力・抽出をデスクトップUI経由で実施
  • クロスプラットフォーム調整: PDF→スプレッドシート→ダッシュボードの自律処理
  • Webアプリ回帰テスト: 脆いSeleniumスクリプト不要で、ナチュラルランゲージによるテスト記述
  • 競合情報収集: スクレイピングをブロックするサイトにも対応

H Company社内ベンチマークでも、Eコマース・ビジネスソフトウェア・コラボレーション・マルチアプリの全カテゴリで高評価。特に複数アプリを跨ぐワークフローで他社と大きな性能差を示しています。

次なる展開: アダプティブエージェンシー

H Companyは次世代の「アダプティブエージェンシー」へ研究を進めています。これは、これまで見たことのないカスタムエンタープライズソフトウェアでも、その場でUI構造を推論し、リアルタイムで操作方法を学習できるモデルです。

現状のHolo3シリーズは既知のソフトウェア環境で訓練されていますが、アダプティブエージェンシーにより未知の社内ツールにも即時対応可能となり、エンタープライズAI導入の制約を大きく減らす見込みです。

結論

Holo3はデスクトップコンピューター利用AIの新基準を樹立しました。OSWorld-Verifiedで78.85%の精度、複雑なマルチアプリタスクの強さ、無料枠/OSS提供の35Bバリアントにより、事前コストなしで開発・検証が可能です。

実装はシンプルで実用的です:スクリーンショットを撮影→APIにPOST→返されたアクションを実行→ループ。Apidogを使えば、応答検証やモック、本番前のE2Eテストも容易です。

GUI操作の自動化に携わる開発者は、Apidogを無料で使い、Holo3統合を本番投入前に徹底検証しましょう。

よくある質問

Holo3とは何ですか?

Holo3はH Companyのコンピューター利用AIモデルで、スクリーンショット入力からデスクトップ/ブラウザ操作アクションを返します。OSWorld-Verifiedで78.85%達成。

Holo3はオープンソースですか?

35Bバリアント(Holo3-35B-A3B)はApache 2.0でオープンウェイト公開。122BバリアントはAPI提供のみ。

OSWorldベンチマークとは?

AIエージェントが実際にPCタスク(Webナビゲーション、ファイル管理等)を実行し、完了後のシステム状態で成否判定します。単一アプリからマルチアプリ連携まで幅広くカバー。

Holo3はClaude Computer Useと比べてどう?

Holo3-122BはOSWorld-Verifiedで78.85%(Claudeは約65%)、コストも安価。Anthropic APIユーザーにはClaudeも選択肢。

Holo3をローカルで実行可能?

35BバリアントはHuggingFaceからダウンロードしてセルフホスト可能。122BはAPI経由のみ。

主なユースケースは?

APIがないレガシーシステム自動化、クロスアプリデータ連携、Webアプリ回帰テスト、競合情報収集など。

Holo3 API統合をテストするには?

Apidogでエンドポイントをインポートし、応答検証アサーション・スマートモック・シナリオ連鎖テストを実施。実機自動化前に問題を検出できます。

ロードマップ上の「アダプティブエージェンシー」とは?

未知のエンタープライズソフトウェアでもリアルタイムでUI構造を推論し操作できる次世代モデル。事前訓練不要でカスタム展開に対応予定です。

Top comments (0)