Verbose Prompt 害模型把良性基因變異判成致病:27 次 ACMG 分類實測
過度詳盡的 Prompt 框架不但沒有讓模型變聰明,反而會讓 NGS 良性變異的誤判率飆升。這份報告透過 27 次完全清除快取的實測,推翻了之前「字多能省 token」的假象,揭露 Verbose prompt 在醫學推理上的致命偏誤。適合任何正在替 Gemini CLI 設計 NGS 分析 prompt 的工程師。
修正實驗缺陷:n=1 的測量在 stdev=8,350 背景下等同丟銅板
C-3 T3 量到 Verbose style 比 Concise 省了 11,802 個 input tokens,看起來很反直覺也很吸引眼球。但這個結論建立在三個根本缺陷上:
- n=1:每種 prompt style 只跑一次。在 H1 已測出 stdev=8,350 的環境下,11,802 的差距落在 1.4σ 以內,統計上等同於丟銅板。
- Session 汙染:三種 style 在同一個 session 內依序執行,先跑的 BRCA1 分析已經暖機了 server-side cache,後跑的 Concise 版因此命中不同的 prefix,根本是在測量快取命中率,不是 prompt style 的效果。
- 沒有品質控管:省了 token 但答對了嗎?C-3 完全沒有量。
C-4 的設計修正了這三點:每個 variant 組之間 sleep 120 秒清除快取、每格跑 n=3、輸出加上 keyword hit rate 作為品質分數。
設計對照實測:3 種 Prompt 風格挑戰 3 種真實變異
Ground truth variants:
- V1 BRCA1 c.5266dupC:Pathogenic(關鍵標準:PVS1, PS4)
- V2 TP53 c.817C>T:Pathogenic(關鍵標準:PS1, PM1)
- V3 BRCA2 c.9976A>T:Benign(關鍵標準:BA1 — 族群頻率 > 5%)
三種 Prompt 風格:
- Verbose(719–742 字元):詳細描述臨床基因體師角色、列出全套 PVS1/PS/PM/PP 致病性標準框架、要求系統性評估。
- Concise(58–83 字元):「ACMG classify [GENE] HGVS. One sentence.」
- Structured(168–191 字元):JSON-like 欄位格式,Gene / Variant / Protein / Type / Task / Output format。
品質評分標準:輸出是否包含正確分類詞 + 至少一個正確 ACMG criteria code。
實測結果:Verbose 品質最差,而且原因很具體
| 指標 | Verbose | Concise | Structured |
|---|---|---|---|
| 整體 median input tokens | 16,231 | 12,169 | 14,186 |
| input_tokens stdev | 534 | 7,591 | 9,890 |
| 整體品質 hit rate | 48.1% ❌ | 81.5% ✓ | 74.1% ✓ |
Verbose 的 stdev 最低(534),代表在 cache-isolated 的環境下它的 token 消耗其實很穩定。但品質得分只有 48.1%,原因完全來自 V3。
致命的 V3 Benign:Verbose 0/3 全滅
Verbose 在 BRCA2 c.9976A>T(Benign variant)的三次跑全部答錯。
V3 是一個人群中常見的 common population variant,正確分類是 Benign(BA1:gnomAD MAF > 5%)。但 Verbose prompt 在開頭就把模型角色設定為「深入評估 PVS1、PS1–PS4、PM1–PM6、PP1–PP5」這些致病性標準,相當於在問題框架上就已經在引導模型去尋找致病證據。
模型讀到 BRCA2 基因 + nonsense 變異型態(p.Lys3326Ter),啟動了 PVS1 的直覺判斷框架,忽略了最重要的頻率數據(BA1 條件)。反觀 Concise 的「ACMG classify BRCA2 c.9976A>T (nonsense, common population variant). One sentence.」——只有 83 個字元,沒有預先設定框架,反而讓模型完整評估了所有方向,三次全部答對。
這個結果本身就是一個警告:過於詳細的「專家角色設定」prompt,在邊緣案例(尤其是 Benign 變異)上可能比什麼都不說更危險。
V2 TP53 的意外插曲
V2(TP53 c.817C>T,Pathogenic)的 Verbose 和 Structured 品質都只有 44.4%。TP53 p.Arg273Cys 雖然是知名的 hotspot missense,但它的主要 ACMG criteria 是 PS1、PM1 而非 PVS1(不是 null variant)。Verbose 框架過度強調 PVS1 判斷流程,反而導致模型對非 null variant 的論述方向發散。
Concise 反而因為不預設框架,給了模型直接找 hotspot mutation 相關的 PS1 證據的機會,品質達到 77.8%。
Thinking Token Tax:複雜度上去了,思考量沒有等比例增加
Thinking Token Tax(思考 Token 稅)是指有推理能力(extended thinking)的模型在產出最終結果前,於背景計算的 token 成本,特點是它不會隨著 prompt 長度成正比線性增長。
| 查詢類型 | 字元數 | Input Tokens | Thoughts Tokens | 思考比例 | 延遲 |
|---|---|---|---|---|---|
| Simple(ACMG 縮寫解釋) | 39 | 941 | 23 | 2.4% | 15s |
| Medium(單一變異分類) | 59 | 33,023 | 676 | 2.0% | 50s |
| Complex(逐步 criteria 評估) | 306 | 34,313 | 1,097 | 3.2% | 53s |
Simple 到 Medium 的 thoughts tokens 跳了 29 倍(23 → 676),延遲跳了 3.3 倍。但 Medium 到 Complex 雖然 prompt 長了 5 倍、要求逐步列出 PVS1/PS/PM 等 9 個標準,thoughts tokens 只增加了 1.6 倍(676 → 1,097),延遲幾乎沒有變(50s → 53s)。
Extended Thinking 的 budget 並不跟 prompt 長度成正比。對於 ACMG 分類這種高度結構化、知識密集的任務,模型的思考量在中等複雜度時就已接近天花板。把 prompt 寫得更詳細只是在增加 input token,思考深度並沒有相應增加。
這個發現有實務意義:如果你想讓 Gemini 更「認真思考」ACMG 分類,與其把 prompt 寫得更詳細,不如直接在 structured format 裡明確要求「Step-by-step evaluation」,讓 output 格式帶動思考結構,而不是靠 input 長度。
實務建議:為 NGS 分析設計 Prompt 的四條守則
- Never frame a diagnostic prompt pathogenesis-first:不要在 prompt 開頭就列滿 PVS1、PS1–PS4 等致病性標準。Benign variant 在這種框架下會被系統性誤判。
- Concise beats Verbose on quality:在有 ground truth 驗證的場景下,短而精確的 prompt 品質更高(81.5% vs 48.1%)。
- Structured wins on speed:Structured format(欄位式)雖然品質略低於 Concise,但它的 input token variance 在快取暖機後明顯更穩定,適合批次評估管線。
- n=1 token 測量沒有意義:stdev 高達數千的環境下,任何單次比較都可能是快取命中率的幸運/不幸,請至少 n=3 並隔組清除快取。


Top comments (0)