DEV Community

JH5
JH5

Posted on

五個適用於醫療場域的提示詞(Prompt)框架與範例

Verbose Prompt 害模型把良性基因變異判成致病:27 次 ACMG 分類實測

過度詳盡的 Prompt 框架不但沒有讓模型變聰明,反而會讓 NGS 良性變異的誤判率飆升。這份報告透過 27 次完全清除快取的實測,推翻了之前「字多能省 token」的假象,揭露 Verbose prompt 在醫學推理上的致命偏誤。適合任何正在替 Gemini CLI 設計 NGS 分析 prompt 的工程師。

修正實驗缺陷:n=1 的測量在 stdev=8,350 背景下等同丟銅板

C-3 T3 量到 Verbose style 比 Concise 省了 11,802 個 input tokens,看起來很反直覺也很吸引眼球。但這個結論建立在三個根本缺陷上:

  1. n=1:每種 prompt style 只跑一次。在 H1 已測出 stdev=8,350 的環境下,11,802 的差距落在 1.4σ 以內,統計上等同於丟銅板。
  2. Session 汙染:三種 style 在同一個 session 內依序執行,先跑的 BRCA1 分析已經暖機了 server-side cache,後跑的 Concise 版因此命中不同的 prefix,根本是在測量快取命中率,不是 prompt style 的效果。
  3. 沒有品質控管:省了 token 但答對了嗎?C-3 完全沒有量。

C-4 的設計修正了這三點:每個 variant 組之間 sleep 120 秒清除快取、每格跑 n=3、輸出加上 keyword hit rate 作為品質分數。

設計對照實測:3 種 Prompt 風格挑戰 3 種真實變異

Ground truth variants:

  • V1 BRCA1 c.5266dupC:Pathogenic(關鍵標準:PVS1, PS4)
  • V2 TP53 c.817C>T:Pathogenic(關鍵標準:PS1, PM1)
  • V3 BRCA2 c.9976A>T:Benign(關鍵標準:BA1 — 族群頻率 > 5%)

三種 Prompt 風格:

  • Verbose(719–742 字元):詳細描述臨床基因體師角色、列出全套 PVS1/PS/PM/PP 致病性標準框架、要求系統性評估。
  • Concise(58–83 字元):「ACMG classify [GENE] HGVS. One sentence.」
  • Structured(168–191 字元):JSON-like 欄位格式,Gene / Variant / Protein / Type / Task / Output format。

品質評分標準:輸出是否包含正確分類詞 + 至少一個正確 ACMG criteria code。

實測結果:Verbose 品質最差,而且原因很具體

Batch C-4 Prompt Style Matrix

指標 Verbose Concise Structured
整體 median input tokens 16,231 12,169 14,186
input_tokens stdev 534 7,591 9,890
整體品質 hit rate 48.1% ❌ 81.5% 74.1% ✓

Verbose 的 stdev 最低(534),代表在 cache-isolated 的環境下它的 token 消耗其實很穩定。但品質得分只有 48.1%,原因完全來自 V3。

致命的 V3 Benign:Verbose 0/3 全滅

Verbose 在 BRCA2 c.9976A>T(Benign variant)的三次跑全部答錯。

V3 是一個人群中常見的 common population variant,正確分類是 Benign(BA1:gnomAD MAF > 5%)。但 Verbose prompt 在開頭就把模型角色設定為「深入評估 PVS1、PS1–PS4、PM1–PM6、PP1–PP5」這些致病性標準,相當於在問題框架上就已經在引導模型去尋找致病證據。

模型讀到 BRCA2 基因 + nonsense 變異型態(p.Lys3326Ter),啟動了 PVS1 的直覺判斷框架,忽略了最重要的頻率數據(BA1 條件)。反觀 Concise 的「ACMG classify BRCA2 c.9976A>T (nonsense, common population variant). One sentence.」——只有 83 個字元,沒有預先設定框架,反而讓模型完整評估了所有方向,三次全部答對。

這個結果本身就是一個警告:過於詳細的「專家角色設定」prompt,在邊緣案例(尤其是 Benign 變異)上可能比什麼都不說更危險。

V2 TP53 的意外插曲

V2(TP53 c.817C>T,Pathogenic)的 Verbose 和 Structured 品質都只有 44.4%。TP53 p.Arg273Cys 雖然是知名的 hotspot missense,但它的主要 ACMG criteria 是 PS1、PM1 而非 PVS1(不是 null variant)。Verbose 框架過度強調 PVS1 判斷流程,反而導致模型對非 null variant 的論述方向發散。

Concise 反而因為不預設框架,給了模型直接找 hotspot mutation 相關的 PS1 證據的機會,品質達到 77.8%。

Thinking Token Tax:複雜度上去了,思考量沒有等比例增加

Thinking Token Tax(思考 Token 稅)是指有推理能力(extended thinking)的模型在產出最終結果前,於背景計算的 token 成本,特點是它不會隨著 prompt 長度成正比線性增長。

Thinking Token Tax

查詢類型 字元數 Input Tokens Thoughts Tokens 思考比例 延遲
Simple(ACMG 縮寫解釋) 39 941 23 2.4% 15s
Medium(單一變異分類) 59 33,023 676 2.0% 50s
Complex(逐步 criteria 評估) 306 34,313 1,097 3.2% 53s

Simple 到 Medium 的 thoughts tokens 跳了 29 倍(23 → 676),延遲跳了 3.3 倍。但 Medium 到 Complex 雖然 prompt 長了 5 倍、要求逐步列出 PVS1/PS/PM 等 9 個標準,thoughts tokens 只增加了 1.6 倍(676 → 1,097),延遲幾乎沒有變(50s → 53s)。

Extended Thinking 的 budget 並不跟 prompt 長度成正比。對於 ACMG 分類這種高度結構化、知識密集的任務,模型的思考量在中等複雜度時就已接近天花板。把 prompt 寫得更詳細只是在增加 input token,思考深度並沒有相應增加。

這個發現有實務意義:如果你想讓 Gemini 更「認真思考」ACMG 分類,與其把 prompt 寫得更詳細,不如直接在 structured format 裡明確要求「Step-by-step evaluation」,讓 output 格式帶動思考結構,而不是靠 input 長度。

實務建議:為 NGS 分析設計 Prompt 的四條守則

  1. Never frame a diagnostic prompt pathogenesis-first:不要在 prompt 開頭就列滿 PVS1、PS1–PS4 等致病性標準。Benign variant 在這種框架下會被系統性誤判。
  2. Concise beats Verbose on quality:在有 ground truth 驗證的場景下,短而精確的 prompt 品質更高(81.5% vs 48.1%)。
  3. Structured wins on speed:Structured format(欄位式)雖然品質略低於 Concise,但它的 input token variance 在快取暖機後明顯更穩定,適合批次評估管線。
  4. n=1 token 測量沒有意義:stdev 高達數千的環境下,任何單次比較都可能是快取命中率的幸運/不幸,請至少 n=3 並隔組清除快取。

Top comments (0)