JH5

Posted on Jun 13

MedGemma 4B 醫學影像CXR判讀評測

#gemini #google #medgemma #cxr

CXR 判讀 90%、肌肉骨骼直接掉到 53%：MedGemma 4B 5 大醫學影像模態完整評測

用公開 CC 授權的醫療影像，實測 Google MedGemma 4B-it 在胸部 X 光、皮膚科、病理組織、眼底、骨骼肌肉 5 大模態上的判讀能力

同一個 4.3B 參數的模型，看胸部 X 光能答對 90%，看膝關節 X 光卻直接掉到 53%——比亂猜好不了多少。

這不是 bug，是設計的必然結果：MedGemma 4B 的 SigLIP 視覺編碼器只在特定影像模態上做過醫療特化訓練。訓練過的模態（CXR、皮膚科、病理、眼科）它懂，沒訓練過的（肌肉骨骼）它就只是通用視覺模型，對醫療特徵毫無感覺。

我用 10 張 CC0 授權的 Wikimedia Commons 醫療影像跑完了 5 個模態完整測試，結果直接告訴你它在哪裡能用、在哪裡不能信。

TL;DR

指標	結果
模型	MedGemma 4B-it (google/medgemma-4b-it)
GPU	NVIDIA RTX 3090 (24GB)
VRAM 佔用	8.61 GB (BF16) / Peak 8.78 GB
推理速度	22.9 tok/s (avg)
載入時間	9.7 秒
測試案例	10 張影像 × 5 模態（每模態 2 張）
整體關鍵字命中率	71.1%
最佳模態	胸部 X 光 90.0%、眼科 83.3%
最弱模態	肌肉骨骼 53.5%
每張影像平均推理	~24 秒
總推理時間	237.3 秒（10 張）

SigLIP 視覺編碼器的訓練邊界：4 種模態強，骨骼肌肉直接從 90% 掉到 53%

MedGemma 4B 是 Google 首個公開釋出的醫療多模態模型。與純文字版不同，4B 版本內建 SigLIP 視覺編碼器，經過 4 大醫學影像模態的專門訓練：

訓練模態	訓練資料集	官方 Benchmark
胸部 X 光 (CXR)	MIMIC-CXR, CheXpert, CXR14	Macro F1 88.9%
皮膚科	PAD-UFES-20, SCIN	US-DermMCQA 71.8%
病理組織	TCGA, CAMELYON	PathMCQA 69.8%
眼科	EyePACS	EyePACS 64.9%

在前一篇文章中，我們已經驗證了 MedGemma 在基因變異解讀上的能力（9/9 方向正確）。這次我們要測試它的視覺理解能力——看得懂醫療影像嗎？

實測目標

覆蓋 MedGemma 訓練過的 4 大模態 + 未訓練的骨骼肌肉（MSK）
每個模態各 2 張影像（1 正常/典型 + 1 異常/困難）
使用公開 CC 授權影像（Wikimedia Commons），確保可重現
在消費級 RTX 3090 上執行，驗證實際部署可行性

測試環境

Server:         Linux 6.8.0, Ubuntu 22.04
GPU:            NVIDIA RTX 3090 (24GB GDDR6X)
CPU:            20 cores
RAM:            125 GB
Python:         3.10.12
PyTorch:        2.7.1+cu118
Transformers:   5.3.0
Model:          google/medgemma-4b-it (4.3B params, BF16)
Peak VRAM:      8.78 GB

測試資料：10 張公開授權醫療影像

#	ID	模態	影像內容	Ground Truth	授權
1	cxr_normal	胸部 X 光	正常 PA CXR	Normal chest X-ray	CC0
2	cxr_pneumonia	胸部 X 光	肺炎 CXR	肺炎合併浸潤/實質化	CC-BY-SA 4.0
3	derm_melanoma	皮膚科	黑色素瘤	不對稱、邊界不規則、顏色變化	CC-BY-SA 3.0
4	derm_bcc	皮膚科	基底細胞癌	珍珠狀丘疹、毛細血管擴張	CC-BY-SA 3.0
5	path_breast	病理組織	乳房 IDC	浸潤性管狀癌	CC-BY-SA 4.0
6	path_colon	病理組織	大腸癌	大腸腺癌	CC-BY-SA 3.0
7	fundus_normal	眼科	正常眼底	正常眼底，無糖尿病視網膜病變	CC-BY-SA 3.0
8	fundus_dr	眼科	糖尿病視網膜病變	DR 合併微血管瘤、出血、滲出物	CC-BY-SA 3.0
9	msk_colles	肌肉骨骼	Colles 骨折	遠端橈骨骨折合併背側成角	CC-BY-SA 3.0
10	msk_ra	肌肉骨骼	類風濕關節炎	RA PIP 關節骨侵蝕	CC-BY-SA 4.0

所有影像均來自 Wikimedia Commons，可自由使用於研究和教育目的。

結果總覽

各模態表現

模態	案例數	平均分數	tok/s	平均推理時間
胸部 X 光	2	90.0%	22.8	18.0s
️ 眼科	2	83.3%	22.9	21.1s
皮膚科	2	67.8%	22.9	32.3s
病理組織	2	60.7%	22.9	26.4s
肌肉骨骼	2	53.5%	22.9	20.9s
整體	10	71.1%	22.9	23.7s

[示意圖] 此截圖為示意圖（MedGemma VLM 需要 MedGemma 視覺模型需 Google 授權存取，數據取自原始測試記錄）。

逐案例詳細結果

#	案例	模態	分數	tokens	時間	tok/s	VRAM
1	CXR Normal	胸部 X 光	80%	272	12.1s	22.5	8.6G
2	CXR Pneumonia	胸部 X 光	100%	548	23.8s	23.0	8.6G
3	Derm Melanoma	皮膚科	86%	583	25.4s	23.0	8.6G
4	Derm BCC	皮膚科	50%	893	39.2s	22.8	8.6G
5	Histo Breast IDC	病理組織	71%	520	22.7s	22.9	8.6G
6	Histo Colon Cancer	病理組織	50%	692	30.0s	23.0	8.6G
7	Fundus Normal	眼科	67%	505	22.0s	22.9	8.6G
8	Fundus DR	眼科	100%	463	20.2s	22.9	8.6G
9	MSK Colles Fracture	肌肉骨骼	57%	663	28.8s	23.0	8.6G
10	MSK RA Hand	肌肉骨骼	50%	295	12.9s	22.8	8.6G

案例分析：精彩表現

Case 2: CXR 肺炎判讀 — 100% 命中

Ground Truth: 肺炎合併浸潤/實質化

MedGemma 判讀：

"There are diffuse, bilateral opacities, particularly in the upper lung zones... The most likely diagnosis is pneumonia, specifically bilateral pneumonia or diffuse alveolar damage (DAD). The upper lobe predominance is a common feature of certain types of pneumonia, such as atypical pneumonias (e.g., Mycoplasma pneumoniae, Chlamydophila pneumoniae)."

命中全部 5 個關鍵字：pneumonia, consolidation, infiltrate, opacity, infection

亮點： 不僅正確診斷，還進一步推論可能是非典型肺炎（上肺葉分布），並建議做 CT、血液培養和痰液檢查。這是臨床上非常合理的判讀流程。

Case 3: 黑色素瘤 ABCDE 評估 — 86% 命中

Ground Truth: 黑色素瘤——不對稱、邊界不規則、顏色變化

MedGemma 判讀：

"A) Asymmetry: The lesion appears somewhat asymmetrical... B) Border Irregularity: The borders are irregular and not well-defined... C) Color Variation: significant color variation... D) Diameter: appears to be at least 6mm... The most likely diagnosis is melanoma."

命中 6/7 關鍵字：melanoma, asymmetry, irregular border, color variation, pigmented, ABCDE
僅漏 "malignant"（但「melanoma」本身即為惡性）

亮點： 系統性地使用 ABCDE 準則分析，在 differential diagnosis 中也正確列出 melanoma 為最高風險。

Case 8: 糖尿病視網膜病變 — 100% 命中

Ground Truth: 糖尿病視網膜病變合併微血管瘤、出血、滲出物

MedGemma 判讀：

"In the diabetic retinopathy eye, there are numerous microaneurysms visible... There are also some hemorrhages present... The image shows some soft exudates (cotton wool spots)... and some hard exudates... the diabetic retinopathy severity is likely moderate."

命中全部 5 個關鍵字：diabetic retinopathy, hemorrhage, microaneurysm, exudate, cotton wool

亮點： 不僅正確辨識所有病理特徵，還進行了嚴重度分級（moderate），並說明沒有新生血管或黃斑水腫，這是完整的 DR 分期評估。

案例分析：需要改進的地方 ️

Case 10: MSK RA Hand — 50% 命中（誤判）

Ground Truth: 類風濕關節炎 PIP 關節骨侵蝕

MedGemma 判讀：

"There is a fracture of the distal phalanx of the index finger... Most likely diagnosis is a distal phalanx fracture of the index finger."

完全誤判為骨折，未辨識出類風濕關節炎的典型特徵（骨侵蝕、關節間隙狹窄）

分析： 這張影像解析度較低（379×454），且 MSK 不在 MedGemma SigLIP 的訓練模態中。模型傾向於判讀為最常見的骨骼異常（骨折），而非需要細緻觀察的自體免疫疾病特徵。

Case 4: Derm BCC — 50% 命中

Ground Truth: 基底細胞癌——珍珠狀丘疹、毛細血管擴張

MedGemma 判讀：

"The most likely diagnosis is Basal Cell Carcinoma (BCC)."

正確診斷為 BCC
但未提及典型形態特徵：pearly（珍珠狀）、telangiectasia（毛細血管擴張）、nodular（結節狀）

分析： 雖然主要診斷正確，但缺少支持診斷的關鍵特徵描述。在臨床上，「為什麼判斷為 BCC」的推理過程與最終診斷同樣重要。

Case 6: Histo Colon Cancer — 50% 命中

Ground Truth: 大腸腺癌

MedGemma 判讀：

"The most likely diagnoses include Colorectal Cancer..."

正確辨識為大腸直腸癌
未指出具體組織型態為「adenocarcinoma（腺癌）」，也未描述「glandular（腺體）」結構

分析： 對於病理組織切片的組織型態辨識不夠精確。在臨床病理報告中，「adenocarcinoma」與籠統的「cancer」有很大區別。

各模態深入分析

胸部 X 光（90.0%）— 最佳表現

這是 MedGemma SigLIP 訓練最充分的模態（MIMIC-CXR + CheXpert + CXR14），表現符合預期：

正常 CXR： 系統性地評估心臟大小、肺野、縱膈腔、肋膈角、骨骼結構，給出「within normal limits」的正確結論
肺炎 CXR： 不僅正確識別 opacity，還推論病原學可能性，給出後續檢查建議

與官方 Benchmark（macro F1 88.9%）一致。

️ 眼科（83.3%）— 優秀表現

眼底影像判讀表現出乎意料地好：

正常眼底： 正確評估杯盤比、黃斑、血管，結論為正常（但未明確說「no hemorrhage」、「no exudate」等否定陳述）
DR 眼底： 完美辨識所有特徵並正確分級

皮膚科（67.8%）— 中等表現

黑色素瘤（86%）： 準確使用 ABCDE 框架，表現優秀
BCC（50%）： 診斷正確但特徵描述不足

這與官方 US-DermMCQA 71.8% 的水準接近。

病理組織（60.7%）— 待加強

乳房 IDC（71%）： 正確辨識浸潤性管狀癌，但未明確提及「breast」
大腸癌（50%）： 辨識為大腸直腸癌但組織型態不精確

病理組織需要更細緻的形態學描述，這仍是 VLM 的挑戰。

肌肉骨骼（53.5%）— 最弱表現

Colles 骨折（57%）： 正確辨識為遠端橈骨骨折但未使用專有名稱
RA（50%）： 誤判為骨折——最大的失誤

MSK 不在 MedGemma SigLIP 的訓練模態中，表現較弱在預期之內。這也驗證了模型在 OOD（out-of-distribution）域外的泛化能力有限。

效能分析

模型載入與推理效能

指標	數值
模型載入時間	9.7 秒（有快取）
VRAM 佔用	8.61 GB（穩態）
Peak VRAM	8.78 GB
推理速度	22.9 tok/s（平均）
每張影像推理時間	12.1s ~ 39.2s
總推理時間（10 張）	237.3 秒

影像大小 vs 推理時間

有趣的觀察——MedGemma 會將所有影像 resize 到固定的 patch 數，因此影像解析度對推理時間影響不大。推理時間主要取決於生成的 token 數量：

案例	影像大小	tokens	時間
CXR Normal	2412×1956	272	12.1s
Derm BCC	1200×864	893	39.2s
MSK RA	379×454	295	12.9s
Path Breast	3079×2048	520	22.7s

最大影像（3079×2048）和最小影像（379×454）的推理時間差距不大，主要差異來自生成長度。

與文字模式比較

指標	影像模式	文字模式（變異解讀）
VRAM	8.61 GB	8.01 GB
Peak VRAM	8.78 GB	8.18 GB
tok/s	22.9	23.7
載入時間	9.7s	11.3s

影像模式比文字模式多用 ~0.6 GB VRAM（SigLIP 編碼器），推理速度稍慢 ~3%。兩者都在 RTX 3090 24GB 上輕鬆運行。

與官方 Benchmark 對比

模態	官方 Benchmark	我們的測試	備註
胸部 X 光	88.9% (macro F1)	90.0%	吻合
皮膚科	71.8% (US-DermMCQA)	67.8%	接近
病理組織	69.8% (PathMCQA)	60.7%	️ 偏低
眼科	64.9% (EyePACS)	83.3%	⬆️ 偏高
肌肉骨骼	N/A（未訓練）	53.5%	—

️ 注意：我們的測試僅 10 張影像，樣本量太小，無法做統計學意義上的比較。這些數字僅供定性參考。

臨床適用性評估

適合的場景

胸部 X 光初篩：正常/異常二分類 + 主要異常描述，可用於急診分流
糖尿病視網膜病變篩檢：特徵辨識和分級表現優秀，適合社區篩檢
皮膚科輔助評估：對黑色素瘤等高風險病灶的警示能力良好
教學輔助：能產生系統性的影像判讀報告，適合住院醫師學習

️ 不適合/需謹慎的場景

最終診斷報告：無法取代放射科/病理科醫師的正式報告
細緻形態學分析：病理組織的組織型態辨識不夠精確
訓練域外影像：MSK 等未訓練模態表現明顯下降
低解析度影像：小影像可能無法提供足夠細節（如 RA 案例）

建議部署方式

                  ┌─────────────┐
                  │  醫療影像    │
                  └──────┬──────┘
                         │
                  ┌──────▼──────┐
                  │ MedGemma 4B │  ← 8.78 GB VRAM
                  │  初步判讀    │     22.9 tok/s
                  └──────┬──────┘
                         │
              ┌──────────┼──────────┐
              │          │          │
       ┌──────▼──┐ ┌────▼────┐ ┌──▼──────┐
       │ 正常/低風│ │ 需關注  │ │ 高風險  │
       │ 險：歸檔 │ │ 優先排程│ │ 立即通知│
       └─────────┘ └─────────┘ └─────────┘
                                     │
                              ┌──────▼──────┐
                              │ 專科醫師    │
                              │ 確認報告    │
                              └─────────────┘

測試方法論

評分方式：關鍵字命中（Keyword Hit Rate）

每個案例預定義一組「ground truth 關鍵字」，計算模型回應中的命中率：

score = (matched_keywords / total_keywords) × 100%

例如 CXR Pneumonia 的關鍵字為：

["pneumonia", "consolidation", "infiltrate", "opacity", "infection"]

模型回應中 5/5 全部命中 → 100%

局限性

關鍵字評估的偏差：關鍵字匹配無法完全反映臨床判讀品質。例如 Colles fracture 案例中，模型正確辨識「distal radius fracture」但未使用「Colles」這個專有名稱，被扣分
樣本量小：每個模態僅 2 張影像，統計信心不足
影像來源：Wikimedia Commons 的教學影像通常較典型，不代表真實臨床場景的複雜度
單一模型版本：僅測試 4B-it，27B 版本可能表現更好

重現此測試

1. 下載影像

全部 10 張影像已上傳至伺服器，也可以從 Wikimedia Commons 手動下載：

mkdir -p /tmp/medgemma_images
# 10 張 CC 授權影像，詳見 medgemma_medical_image_test_v2.py 中的 source 欄位

2. 安裝 MedGemma

pip install transformers torch pillow
# 需要 HuggingFace 存取權限
# huggingface-cli login

3. 執行測試

HF_HOME=/path/to/hf_cache python3 medgemma_medical_image_test_v2.py

輸出 JSON 結果至 /tmp/medgemma_image_results.json。

結論

MedGemma 4B 醫療影像三大亮點

CXR 和眼底判讀已達臨床參考水準：胸部 X 光 90%、眼底 83.3%，在訓練充分的模態上表現可靠
消費級 GPU 即可部署：8.78 GB VRAM，RTX 3090 甚至 RTX 4070 就能跑，不需要企業級硬體
推理回應品質高：不僅給出診斷，還提供系統性的判讀報告、鑑別診斷、後續建議

三大待改進

域外泛化不足：未受訓的 MSK 模態明顯退化（53.5%）
形態學描述不夠精確：病理和皮膚科的特徵描述有遺漏
低解析度耐受性不佳：小影像可能導致誤判（RA 案例）

與前次變異解讀測試的綜合評價

測試項目	表現	結論
基因變異解讀（文字）	9/9 方向正確，83% 品質分	可用於 VUS 預篩
醫療影像判讀（視覺）	71.1% 整體，CXR/眼底 85%+	CXR/DR 篩檢可用

MedGemma 4B 在 4.3B 參數 的規模下，同時具備文字推理和影像理解能力，是目前最適合在消費級 GPU 上部署的醫療 AI 模型之一。

附錄：完整測試結果 JSON

結果檔案：medgemma_image_results.json（33 KB），包含所有 10 個案例的完整回應、分數、效能指標。

延伸閱讀：MedGemma 三部曲

篇	主題	核心發現
一	基因變異解讀	9/9 致病性方向正確，ACMG 幻覺
二（本篇）	醫療影像判讀	CXR 90.0%、眼科 83.3%、MSK 53.5%
三	醫學文獻查詢	80.9%，證據整合最強

如果你想了解同樣在 RTX 3090 上的文字端能力（變異解讀和文獻查詢），可以閱讀系列的第一篇和第三篇。三篇合在一起，可以對 MedGemma 4B 在消費級 GPU 上的能力邊界有完整輪廓。

測試日期：2026-03-10
測試環境：RTX 3090 24GB / Ubuntu 22.04 / MedGemma 4B-it
影像來源：Wikimedia Commons (CC0 / CC-BY-SA)
測試腳本：medgemma_medical_image_test_v2.py