JH5

Posted on Jun 13

oMLX 效能調校 KV Cache 與Concurrent Batching

#ai #nvidia #llm

oMLX 國外社群實測整理 & 本機實測計畫

調查日期：2026-03-11 | 來源：Reddit r/LocalLLaMA, r/ClaudeAI, r/openclaw, GitHub Issues/Discussions, omlx.ai/benchmarks

一、oMLX 是什麼？

oMLX（v0.2.7，2,800+ stars）是專為 Apple Silicon 打造的開源 LLM 推論伺服器，核心特色：

特色	說明
Tiered KV Cache (Hot+Cold)	RAM 為 hot tier，SSD 為 cold tier，KV cache 持久化到 SSD，重啟不遺失
Continuous Batching	支援多併發請求，透過 mlx-lm BatchGenerator
Claude Code / OpenClaw 優化	原生 Anthropic API (`/v1/messages`)，context scaling，SSE keep-alive
Multi-Model Serving	同時載入 LLM + VLM + Embedding + Reranker，LRU eviction
macOS 原生 App	PyObjC menubar app（非 Electron），DMG 安裝或 `brew install omlx`
Tool Calling	支援 Llama/Qwen/DeepSeek/Gemma/GLM/MiniMax/Mistral/Kimi 等格式 + MCP
內建 Benchmark	Admin Dashboard 一鍵跑基準測試，v0.2.6+ 可上傳至社群排行榜

二、國外論壇實測整理（近 4 週）

實測 1：M3 Ultra 512GB 三大模型 PK（r/LocalLLaMA, 38↑, 29 comments）

作者 @cryingneko（oMLX 開發者）在 M3 Ultra 512GB 上實測三款模型：

模型	量化	pp TPS (1K)	tg TPS (single)	tg TPS (8x batch)	Peak Mem
Qwen3-Coder-Next	8bit	1,461.7	58.7	243.0	80 GB
MiniMax-M2.5	8bit	588.0	34.0	126.3	227 GB
GLM-5	4bit	187.0	16.7	60.3	392 GB

社群結論：

Qwen3-Coder-Next-80B 是本地編碼之王，速度 + 品質可媲美商業服務
MiniMax-M2.5 prefix caching 加速後 TTFT 顯著下降，「surprisingly usable」
GLM-5 速度不快但搭配 continuous batching + persistent KV cache，翻譯 + 大量 system prompt 場景實用

實測 2：Claude Code 本地化（r/ClaudeAI, r/LocalLLaMA）

痛點： Claude Code 的工作流會持續改變 prompt prefix → 每次都要重算 30-100K tokens 的 KV cache → 每個回應 20-90 秒

oMLX 解法： SSD 持久化 KV cache → TTFT 從 20-90s 降至 3-5s

用戶回饋精選：

@slypheed (M4 Max 128GB): 「Claude Code is actually usable with Qwen3-Coder-Next 6bit」「SSD caching makes a massive difference」「gave up on agentic CLI locally until oMLX」
@whallsey (M4 Pro 64GB): 「Qwen3.5-35B-A3B-4bit + oMLX + Claude Code has been awesome」
@Creepy-Bell-4527: 「an absolute beast for claude code」「can have both MLX speeds and caching」
@Kuane: 「replaced LM Studio〞qwen3-coder-next responds A LOT faster due to prompt caching」

實測 3：M4 Max 128GB — Qwen3.5 MoE（omlx.ai/benchmarks + Reddit）

@slypheed 在 M4 Max 128GB 實測：

模型	量化	pp TPS (1K)	tg TPS	Peak Mem
Qwen3.5-27B	6bit	231.4	20.7	22 GB
Qwen3.5-122B-A10B	6bit	490.6	45.7	94 GB

評價： Qwen3.5 是第一個在 Claude Code 下「actually successfully used」的本地模型

實測 4：OpenClaw 整合（r/openclaw）

SSD caching 將 OpenClaw 回應時間從 30-90s 降至 5s
用戶報告取代 Ollama/LM Studio 做為 OpenClaw 後端

實測 5：社群 Benchmark 排行榜（omlx.ai/benchmarks）

v0.2.6+ 內建一鍵 benchmark 上傳，目前已累積 5,521 筆 社群基準測試結果：

#	晶片	RAM	模型	pp TPS	tg TPS
1	M4 Max 40c	128GB	Qwen3.5-35B-A3B 8bit	1,654	80.1
2	M4 Pro 20c	64GB	Qwen3.5-35B-A3B 8bit	893	55.1
3	M3 Ultra 80c	512GB	Qwen3.5-122B-A10B 8bit	843	39.0
4	M4 10c	16GB	Qwen3.5-4B 4bit	412	38.5
5	M4 10c	16GB	Qwen3.5-9B 4bit	225	21.4

實測 6：vs LM Studio / Ollama 比較

社群普遍共識：

vs Ollama: Ollama 不支援 SSD KV cache，prefix shift 時必須重算。oMLX 在 coding agent 場景完勝
vs LM Studio: LM Studio 的 KV cache 在 Mac 上「seems buggy」，oMLX 更輕量且 SSD caching 穩定
共存技巧: oMLX 可直接讀取 LM Studio 的模型目錄，不用重複下載

三、本機硬體評估

Mac Studio (Mac14,13)
├── Chip: Apple M2 Max
├── Memory: 96 GB
├── macOS: 15.7.3 (Sequoia) ✅ 符合 macOS 15.0+ 需求
└── Free Disk: ✅ 88 GB（清理 TM snapshots 後，模型已下載就位）

96GB M2 Max 可跑的模型

模型	量化	估計 VRAM	適合場景	社群推薦度
Qwen3.5-35B-A3B	4bit	~12-15 GB	編碼/通用，MoE 速度快	⭐⭐⭐⭐⭐
Qwen3.5-35B-A3B	8bit	~20-25 GB	編碼/通用，品質更好	⭐⭐⭐⭐⭐
Qwen3-Coder-Next	8bit	~80 GB	專業編碼，96GB 勉強可載入	⭐⭐⭐⭐
Qwen3.5-9B	4bit	~5 GB	輕量快速測試	⭐⭐⭐
Devstral Small 2	4-8bit	~12-24 GB	Mistral 編碼模型	⭐⭐⭐
GLM4.7 Flash	MXFP8	~30 GB	工具呼叫佳	⭐⭐⭐

⚠️ 磁碟空間問題

目前只有 17.9 GB 可用空間，而：

模型下載需要 5-80 GB / 每個模型
SSD KV cache 建議預留 50-100 GB
建議：外接 SSD 或清理空間至少到 100 GB+

四、建議實測計畫

Phase 1：安裝 + 最小模型驗證（需先清出磁碟空間）

# 方案 A: Homebrew 安裝
brew tap jundot/omlx https://github.com/jundot/omlx
brew install omlx

# 方案 B: DMG 安裝（從 GitHub Releases 下載）

# 啟動
omlx serve --model-dir ~/models

Phase 2：Qwen3.5-35B-A3B 實測（首推）

社群最推薦的 M2 Max 96GB 模型組合：

從 Admin Dashboard 下載 mlx-community/Qwen3.5-35B-A3B-8bit
跑內建 benchmark（pp1024/tg128, pp4096/tg128）
上傳結果到 omlx.ai/benchmarks 社群排行榜
用 Admin Chat 對話測試

Phase 3：Claude Code / OpenClaw 整合

# Claude Code 整合（需要 claude CLI）
# oMLX Admin 有一鍵 Claude Code config 生成器

# API 端點
# OpenAI: http://localhost:8000/v1
# Anthropic: http://localhost:8000/v1/messages

Phase 4：SSD Cache 效能對比

關閉 SSD cache 跑 benchmark → 記錄 TTFT
開啟 SSD cache 跑同樣 benchmark → 比較 TTFT
多輪對話測試（模擬 coding agent prefix shift）

# 啟用 SSD cache
omlx serve --model-dir ~/models --paged-ssd-cache-dir ~/.omlx/cache

# 外接 SSD （建議）
omlx serve --model-dir /Volumes/ExternalSSD/models --paged-ssd-cache-dir /Volumes/ExternalSSD/omlx-cache

Phase 5：Multi-Model Serving 測試

96GB 可以同時載入：

Qwen3.5-35B-A3B 8bit (~25 GB) — 主力 LLM
BGE-M3 (~2 GB) — Embedding
合計約 27 GB，仍有大量 headroom 給 KV cache

五、社群熱門議題 & 待解問題

議題	狀態	相關 Issue
M5 Ultra 支援（WWDC 2026 後）	等待	社群討論中
Qwen3.5 thinking 開關失效	Open	#120
8GB RAM 裝置 auto 記憶體計算錯誤	Open	#137
GPU 99% stuck	Open	#131
OpenClaw 複雜任務 crash	Open	#133
/responses API 相容性	Open	#138
Windows 支援	不支援	Apple Silicon only
多機分散式推論	未支援	社群多人詢問

六、與現有 Post 的關聯

現有 Post	oMLX 關聯角度
MedGemma 變異解讀	oMLX 可做為 MedGemma MLX 版的推論後端
DeepVariant GPU 測試	本地 LLM 輔助 VCF 報告解讀
AI Security (Patching Agent)	oMLX + local LLM 做為無 API 費用的安全修補 Agent
Gemini 3.1 Flash-Lite 實測	oMLX 做為本地替代方案的成本對照組

七、本機實測結果（2026-03-11 實際跑完）

環境

項目	值
硬體	Mac Studio M2 Max 96GB
macOS	15.7.3 Sequoia
oMLX	v0.2.7（Homebrew 安裝）
模型	mlx-community/Qwen3.5-35B-A3B-8bit（35 GB, 8 shards）
SSD Cache	已啟用 (`~/.omlx/cache`)
內部 SSD 可用	88 GB（清理後從 18 GB 回收）

模型載入

首次載入 35 GB → RAM：~23 秒
後續推理無需重新載入

Benchmark 結果

測試案例	Prompt tok	Generated tok	耗時	吞吐量
Short prompt → 200 tok	21	200	7.2s	27.8 tok/s
Medium prompt → 500 tok	44	500	16.6s	30.2 tok/s
Long system prompt → 200 tok	164	200	7.3s	27.3 tok/s
Cache hit (same prompt) → 200 tok	21	200	6.7s	29.9 tok/s
Code generation → 300 tok	42	300	10.4s	28.8 tok/s
平均				28.8 tok/s

與社群排行榜比較

硬體	模型	tg tok/s	來源
M4 Max 40c 128GB	Qwen3.5-35B-A3B 8bit	80.1	omlx.ai 排行榜
M4 Pro 20c 64GB	Qwen3.5-35B-A3B 8bit	55.1	omlx.ai 排行榜
M2 Max 96GB（本機）	Qwen3.5-35B-A3B 8bit	28.8	本次實測

M2 Max 的記憶體頻寬（400 GB/s）約為 M4 Max（546 GB/s）的 73%，速度比例合理。

API 相容性測試

端點	結果
GET /v1/models	✅
POST /v1/chat/completions (OpenAI)	✅
POST /v1/completions (legacy)	✅
Streaming SSE (32 chunks)	✅
Admin Dashboard (/admin)	✅
POST /v1/messages (Anthropic)	✅
總計	6/6 通過

8. oMLX vs Ollama 面對面比較

測試日期: 2026-03-12 | 同機、同模型、循序執行（避免 96GB RAM 互搶）

測試設計

項目	oMLX	Ollama
版本	v0.2.7	v0.17.6
模型	Qwen3.5-35B-A3B-8bit (MLX, 35 GB)	qwen3.5:35b-a3b-q8_0 (GGUF Q8_0, 38 GB)
量化方式	MLX 原生 8-bit	GGUF Q8_0
API	OpenAI-compat `/v1/chat/completions`	原生 `/api/chat`
執行順序	Phase 2（先卸載 Ollama 釋放 RAM）	Phase 1（先跑，跑完 `keep_alive: 0` 卸載）

生成速度比較

測試項目	oMLX (tok/s)	Ollama (tok/s)	差距	勝出
Short → 100 tok	41.2	31.4	+31.1%	oMLX
Medium → 300 tok	42.7	30.7	+39.0%	oMLX
Long → 500 tok	41.8	31.0	+34.7%	oMLX
Code gen → 300 tok	41.6	31.1	+34.0%	oMLX
System+User → 200 tok	40.9	30.1	+36.1%	oMLX
平均	41.6	30.9	+35.0%	oMLX

模型載入時間

指標	oMLX	Ollama
首次載入 (warmup)	20.8s	27.0s

oMLX 載入快 23%，MLX safetensors 格式比 GGUF 更適合 Apple Silicon 記憶體映射。

Cache / 重複 Prompt 測試（同一 prompt 跑 3 次）

次數	oMLX (tok/s)	oMLX 延遲	Ollama (tok/s)	Ollama 延遲
Cold (第 1 次)	40.7	2.46s	31.4	26.87s
Warm (第 2 次)	35.7	2.80s	30.6	27.61s
Hot (第 3 次)	40.3	2.48s	31.1	27.09s

兩者在重複 prompt 上都沒有顯著的 cache 加速（100 token 生成量固定），但 oMLX 的端到端延遲始終低 10x 以上。

多輪對話延遲（4 輪連續 coding 對話）

輪次	oMLX 延遲	oMLX tok/s	Ollama 延遲	Ollama tok/s	oMLX 快幾倍
Turn 1 (323 prompt tok)	4.29s	35.0	27.73s	30.7	6.5x
Turn 2 (342 prompt tok)	4.27s	35.1	31.46s	31.1	7.4x
Turn 3 (360 prompt tok)	4.63s	32.4	32.46s	30.9	7.0x
Turn 4 (378 prompt tok)	4.30s	34.9	30.92s	31.3	7.2x

多輪對話場景 oMLX 快 7x！ Ollama 每輪回應需 ~30s，oMLX 僅 ~4.3s。這是因為 Ollama 的端到端延遲包含了較高的 GGUF decode overhead，而 MLX 後端的 Metal kernel 調度更高效。

Ollama 獨有指標：Prefill 速度

Ollama 原生 API 提供 prompt_eval_count / prompt_eval_duration，可單獨量測 Prefill 速度：

測試	Prompt tokens	Prefill tok/s
Short (19 tok)	19	15.4
Medium (32 tok)	32	23.4
Long (33 tok)	33	25.1
Code gen (40 tok)	40	32.5
System+User (64 tok)	64	48.7
Multi-turn T4 (378 tok)	378	224.1

Ollama 的 prefill 速度隨 prompt 長度上升（batch parallelism），378 token 可達 224 tok/s。oMLX 不暴露此指標，但其整體延遲更低表明 prefill + decode 管線整合更優。

總結

┌─────────────────────┬──────────┬──────────┬──────────┐
│ 指標                │   oMLX   │  Ollama  │  差距    │
├─────────────────────┼──────────┼──────────┼──────────┤
│ 平均生成速度        │ 41.6 t/s │ 30.9 t/s │ +35.0%   │
│ 模型載入時間        │  20.8s   │  27.0s   │ -23%     │
│ 多輪對話延遲 (avg)  │  4.37s   │  30.66s  │  7.0x 快 │
│ API 相容性          │ OpenAI+  │ OpenAI+  │ 平手     │
│                     │ Anthropic│ 原生API  │          │
│ SSD KV Cache        │    ✅    │    ❌    │ oMLX 獨有│
│ Admin Dashboard     │    ✅    │    ❌    │ oMLX 獨有│
│ 生態系統 / 社群大小 │   小     │   大     │ Ollama 勝│
│ 模型數量 / 格式支援 │  MLX only│ GGUF+多種│ Ollama 勝│
└─────────────────────┴──────────┴──────────┴──────────┘

結論：在 Apple Silicon 上跑 MLX 專用格式，oMLX 速度比 Ollama 快 35%，多輪對話延遲更是快 7 倍。如果你的主要平台是 Mac 且關注推理速度，oMLX 是更好的選擇。但 Ollama 的跨平台能力、社群規模、模型庫多樣性仍是其不可忽視的優勢。

9. 整體結論

oMLX 41.6 tok/s vs Ollama 30.9 tok/s — MLX 原生格式在 Apple Silicon 上有顯著速度優勢
多輪對話場景差距更大（oMLX 4.3s vs Ollama 30.7s），適合 coding assistant / agent 使用
oMLX 的 SSD KV Cache + Admin Dashboard 是差異化功能
Ollama 的生態系統更成熟，模型選擇更多，跨平台更強
建議：Mac 上追求速度選 oMLX，需要跨平台或多格式模型選 Ollama，兩者可共存（但不能同時載入大模型）
後續可加測 Qwen3-Coder-Next 8bit（~80 GB，M2 Max 96GB 剛好可塞入）

10. 進階測試：SSD KV Cache A/B 比較

測試模型：Qwen3.5-35B-A3B-8bit | 每次生成 200 tokens

場景	Cache ON (tok/s)	Cache OFF (tok/s)	差異
Cold（首次請求）	28.5	33.3	-14.4% ⚠️
Warm（同 prompt 重送）	37.0	32.7	+13.1% ✅
Hot（完全相同請求）	35.2	33.3	+5.7% ✅
Partial（部分重複）	35.7	32.3	+10.5% ✅
Short（50 tok）	36.6	44.9	-18.5% ⚠️

結論：SSD Cache 對 warm/hot/partial 場景有 5~13% 加速效果，但對 cold 和短請求反而略慢（cache lookup overhead）。多輪對話、coding assistant 等重複 context 場景適合開啟；一次性短查詢可考慮 --no-cache。

11. 進階測試：Concurrent Batching 併發能力

測試模型：Qwen3.5-35B-A3B-8bit | 每次 100 tok

併發數	Wall Time	聚合吞吐 (tok/s)	擴展係數	狀態
1x	4.41s	22.7	1.00x	✅ 正常
2x	5.32s	37.6	1.66x	✅ 近線性
4x	180s+	~2.2	—	❌ Timeout
8x	180s+	~4.4	—	❌ 500 errors

結論：M2 Max 96 GB 跑 35B MoE 模型時，2 併發可獲得 1.66x 近線性加速，但 4x 以上會超出 Apple Silicon 的記憶體頻寬瓶頸。實務應用建議控制在 2~3 併發。

12. 進階測試：Tool Calling（函數呼叫）

測試模型：Qwen3.5-35B-A3B-8bit | 生物資訊工具定義

子測試	結果	延遲	說明
單一工具呼叫	✅	3.39s	`get_variant_info(BRCA1, p.Arg1699Gln)` — JSON 格式正確
多工具呼叫	✅	4.99s	同時呼叫 `get_variant_info` + `calculate_frequency`
完整 round-trip	✅	6.95s	工具結果回傳 → 模型摘要（308 字）

結論：oMLX 的 tool calling 完全可用，支援 Qwen 格式的 function call 及 multi-tool。延遲在可接受範圍，可搭配 MCP / coding agent 使用。

13. 進階測試：社群排行榜上傳（官方 Benchmark）

透過 Admin Dashboard API /admin/api/bench/start 執行

Prompt Length	Generation (tok/s)	Processing (tok/s)	TTFT (ms)
1024	43.5	605.2	1,692
4096	47.9	699.3	5,857
8192	46.9	681.0	12,030

Bench ID: bench-4d9315c888d1
預填充處理速度：605~699 tok/s（M2 Max 400 GB/s 頻寬的效益）
Generation 穩定性：43.5~47.9 tok/s，比 chat API 的 41.6 tok/s 更高（benchmark 模式無網路 overhead）
已自動上傳至 omlx.ai 社群排行榜 ✅

14. 進階測試：VLM 多模態推論

模型：Qwen2.5-VL-3B-Instruct-4bit（2.9 GB）

測試	延遲	速度 (tok/s)	說明
純文字	2.79s	11.8	基線文字能力
影像描述	1.79s	31.2	Base64 PNG 色塊辨識
醫學/基因體情境	2.09s	83.4	基因體圖表相關提問
結構化 JSON 擷取	1.53s	85.4	從圖像提取 JSON 數據

結論：oMLX 的 Multi-Model Serving 可同時載入 LLM + VLM，無需重啟。3B VLM 在影像+文字組合下速度可達 85 tok/s，但視覺精準度受模型大小限制。適合輕量級圖表解讀 / QC 報告自動檢測等場景。

15. 極限測試：Qwen3-Coder-Next-4bit（42 GB）

目前 HuggingFace 上最大的 MLX 社群 Coder 模型之一（原始參數量推估 70B+，4-bit 量化）

硬體吃緊程度

指標	數值
模型大小	42 GB
系統 RAM	96 GB
模型載入後剩餘	~0.6 GB free
RAM 使用率	~70%（含 OS + oMLX server）
SSD 剩餘	~18 GB（460 GB 中）

效能實測

測試	延遲	tokens	速度 (tok/s)
模型載入（cold start）	14.4s	—	—
短生成（100 tok）	1.70s	79	46.5
程式碼生成（VCF parser, 800 tok）	12.56s	680	54.2
長生成（500 tok）	9.18s	500	54.4
多輪 Turn 1（GC content）	3.82s	200	52.4
多輪 Turn 2（sliding window）	8.01s	400	50.0
多輪 Turn 3（pytest tests）	11.13s	500	44.9

程式碼品質

✅ VCFParser class — 結構完整，包含 __init__, parse(), filter_by_quality()
✅ Type hints — 正確使用 Python type hints
✅ Pytest tests — 生成 5+ 測試案例，coverage 涵蓋 edge cases
✅ 多輪連貫性 — 3 輪對話能正確延續 context，逐步增強程式碼

與 Qwen3.5-35B MoE 比較

指標	Qwen3.5-35B-A3B-8bit	Qwen3-Coder-Next-4bit	差異
模型大小	35 GB	42 GB	+20%
平均生成速度	41.6 tok/s	51.7 tok/s	+24%
多輪平均速度	—	49.1 tok/s	—
載入時間	~7s	14.4s	+106%
程式碼品質	通用型	Coder 專精	—

結論：Qwen3-Coder-Next-4bit 雖然是 42 GB 巨型模型，在 M2 Max 96 GB 上依然能 穩定跑出 51.7 tok/s，甚至比 35 GB MoE 模型更快（4-bit 量化的矩陣運算效率更高）。Cold start 14.4 秒可接受。但 RAM 幾乎被吃光（僅剩 0.6 GB free），不建議同時開其他大型應用程式。

如果你有 96 GB+ Apple Silicon 且主要用途是 coding，這個模型是極佳選擇：51.7 tok/s 的本地 Coder 模型，完全離線，零成本。

16. 六項進階測試總結

#	測試項目	關鍵發現	推薦程度
1	SSD Cache A/B	warm/hot +5~13%，cold 略慢	⭐⭐⭐⭐ 對話場景開啟
2	Concurrent Batching	2x 近線性，4x+ 崩潰	⭐⭐⭐ 控制 2~3 併發
3	Tool Calling	3/3 測試通過，延遲 <7s	⭐⭐⭐⭐⭐ 完全可用
4	官方 Benchmark	gen 43~48 tok/s，已上傳排行榜	⭐⭐⭐⭐⭐ 公開驗證
5	VLM 多模態	3B 模型 85 tok/s，精度受限	⭐⭐⭐ 輕量用途
6	Coder-Next 極限	51.7 tok/s，RAM 幾乎滿載	⭐⭐⭐⭐⭐ Coding 神器

整體結論：oMLX v0.2.7 在 Mac Studio M2 Max 96 GB 上展現了出色的完整性——從 SSD Cache、多併發、Tool Calling、VLM 到極端大模型，都能穩定運作。最亮眼的是 Qwen3-Coder-Next-4bit 跑出 51.7 tok/s，驗證了 Apple Silicon + MLX 的上限極具潛力。

17. Coder-Next 深度測試：HumanEval Pass@1

使用 OpenAI HumanEval benchmark（164 題 Python coding problems），temperature=0, Pass@1

指標	Qwen3-Coder-Next-4bit
Pass@1	150/164 = 91.5%
平均延遲	5.0s / 題
總耗時	~14 分鐘

進度曲線

區間	累計通過率
1-20	95.0%
1-40	95.0%
1-60	95.0%
1-80	93.8%
1-100	93.0%
1-120	94.2%
1-140	92.1%
1-164	91.5%

結論：91.5% Pass@1 對一個 42 GB 4-bit 本地量化模型來說非常出色。作為參考，GPT-4 的 HumanEval Pass@1 約為 67%（2023），Claude 3.5 Sonnet 約為 92%（2024）。Qwen3-Coder-Next-4bit 在本地離線環境下達到了與頂級雲端模型相當的程式碼生成能力。

18. Coder-Next 深度測試：Thinking Mode（內部推理）

Qwen3 系列支援 /think 和 /no_think 控制內部推理鏈。測試 30 題 HumanEval subset。

模式	通過/總題	Pass Rate	平均延遲
Thinking OFF (`/no_think`)	25/30	83.3%	4.4s
Thinking ON (`/think`)	26/30	86.7%	4.8s
差異	+1	+3.3%	+0.4s

逐題對比（僅列差異題）

題目	OFF	ON	說明
HumanEval/10	❌	✅	Thinking 修正了 palindrome 邏輯
HumanEval/50	❌	✅	Thinking 修正了 encode_shift
HumanEval/65	✅	❌	Thinking 過度思考反而出錯

結論：Thinking Mode 帶來 +3.3% 準確率提升，延遲增加僅 +0.4s（微乎其微）。在較困難的題目中 Thinking 能幫助修正邏輯錯誤，但偶爾會過度推理。建議在複雜程式任務中開啟 Thinking Mode。

19. 模型對比：Coder-Next vs Qwen3.5-35B MoE

同樣 30 題 HumanEval，相同 system prompt 和 extraction 邏輯

指標	Qwen3-Coder-Next-4bit	Qwen3.5-35B-A3B-8bit	差異
Pass@1 (30 題)	83.3%	56.7%	+26.6%
平均延遲	4.4s	18.4s	4.2x 更快
模型大小	42 GB	35 GB	+20%
量化	4-bit	8-bit	—

分析

Coder-Next 在程式碼生成勝出 +26.6 個百分點，這是 coding-specific fine-tuning 的明確效益
Qwen3.5-35B 作為通用型 MoE 模型，程式碼輸出較冗長（容易混入解釋文字），提取困難度較高
Coder-Next 延遲僅 4.4s vs MoE 18.4s（4.2 倍差距），4-bit 量化的矩陣運算更高效
MoE 模型的優勢在多領域通用推理，Coder 模型的優勢在程式碼精準度

結論：如果主要用途是 coding（code completion / generation / review），Coder-Next 在速度和準確度都大幅勝過通用 MoE 模型。但在需要多領域知識的綜合推理場景，Qwen3.5-35B 仍有其價值。

20. Coder-Next 深度測試：長 Context 程式碼理解

輸入 500 行真實 Python 程式碼（nsight_gpu_profiling_test.py），測試 4 種理解能力

測試	延遲	輸出 tokens	回答品質
Q1 架構總覽	45.4s	500	✅ 正確辨識 phase-based 架構、NVTX range nesting
Q2 Bug/問題分析	12.3s	500	✅ 發現 silent failure、missing error handling
Q3 函數深度解析 (`phase_env`)	10.6s	400	✅ 正確描述 GPU warmup 和 env detection 邏輯
Q4 重構建議	18.6s	800	✅ 建議 NVTX context manager、config class、retry decorator

總輸出：2,200 tokens，平均 21.7s/問
4/4 問題全部正確回答，且能引用具體函數名和程式邏輯
500 行 Python 輸入（估計 ~8,000 tokens）完全在 context window 內

結論：Coder-Next 對 500 行真實程式碼的理解能力極佳。能正確分析架構、找出潛在問題、深入解釋函數邏輯、並提出有建設性的重構建議。非常適合作為本地 code review / code understanding 工具。

21. 四項深度測試總結

#	測試	關鍵數據	結論
1	HumanEval Pass@1	91.5%（164 題）	接近 Claude 3.5 Sonnet 水準
2	Thinking Mode	OFF 83.3% → ON 86.7% (+3.3%)	複雜題目建議開啟
3	vs MoE 對比	Coder 83.3% vs MoE 56.7%，速度快 4.2x	Coding 場景完勝
4	長 Context	500 行 4/4 全答對，avg 21.7s	Code review 好幫手

最終評價：Qwen3-Coder-Next-4bit 在 Apple Silicon M2 Max 96 GB 上，以 51.7 tok/s 的生成速度 + 91.5% HumanEval Pass@1，展現了驚人的本地 coding 能力。搭配 oMLX 的 SSD Cache 和 Tool Calling，完全可以作為離線、零成本的 coding assistant。

報告更新：2026-03-12 | oMLX v0.2.7 | Mac Studio M2 Max 96GB | Coder-Next 四項深度測試完成