五個適用於醫療場域的提示詞(Prompt)框架與範例

#ai #security #llm #healthcare

Verbose Prompt 害模型把良性基因變異判成致病：27 次 ACMG 分類實測

過度詳盡的 Prompt 框架不但沒有讓模型變聰明，反而會讓 NGS 良性變異的誤判率飆升。這份報告透過 27 次完全清除快取的實測，推翻了之前「字多能省 token」的假象，揭露 Verbose prompt 在醫學推理上的致命偏誤。適合任何正在替 Gemini CLI 設計 NGS 分析 prompt 的工程師。

修正實驗缺陷：n=1 的測量在 stdev=8,350 背景下等同丟銅板

C-3 T3 量到 Verbose style 比 Concise 省了 11,802 個 input tokens，看起來很反直覺也很吸引眼球。但這個結論建立在三個根本缺陷上：

n=1：每種 prompt style 只跑一次。在 H1 已測出 stdev=8,350 的環境下，11,802 的差距落在 1.4σ 以內，統計上等同於丟銅板。
Session 汙染：三種 style 在同一個 session 內依序執行，先跑的 BRCA1 分析已經暖機了 server-side cache，後跑的 Concise 版因此命中不同的 prefix，根本是在測量快取命中率，不是 prompt style 的效果。
沒有品質控管：省了 token 但答對了嗎？C-3 完全沒有量。

C-4 的設計修正了這三點：每個 variant 組之間 sleep 120 秒清除快取、每格跑 n=3、輸出加上 keyword hit rate 作為品質分數。

設計對照實測：3 種 Prompt 風格挑戰 3 種真實變異

Ground truth variants：

V1 BRCA1 c.5266dupC：Pathogenic（關鍵標準：PVS1, PS4）
V2 TP53 c.817C>T：Pathogenic（關鍵標準：PS1, PM1）
V3 BRCA2 c.9976A>T：Benign（關鍵標準：BA1 — 族群頻率 > 5%）

三種 Prompt 風格：

Verbose（719–742 字元）：詳細描述臨床基因體師角色、列出全套 PVS1/PS/PM/PP 致病性標準框架、要求系統性評估。
Concise（58–83 字元）：「ACMG classify [GENE] HGVS. One sentence.」
Structured（168–191 字元）：JSON-like 欄位格式，Gene / Variant / Protein / Type / Task / Output format。

品質評分標準：輸出是否包含正確分類詞 + 至少一個正確 ACMG criteria code。

實測結果：Verbose 品質最差，而且原因很具體

指標	Verbose	Concise	Structured
整體 median input tokens	16,231	12,169	14,186
input_tokens stdev	534	7,591	9,890
整體品質 hit rate	48.1%	81.5%	74.1%

Verbose 的 stdev 最低（534），代表在 cache-isolated 的環境下它的 token 消耗其實很穩定。但品質得分只有 48.1%，原因完全來自 V3。

致命的 V3 Benign：Verbose 0/3 全滅

Verbose 在 BRCA2 c.9976A>T（Benign variant）的三次跑全部答錯。

V3 是一個人群中常見的 common population variant，正確分類是 Benign（BA1：gnomAD MAF > 5%）。但 Verbose prompt 在開頭就把模型角色設定為「深入評估 PVS1、PS1–PS4、PM1–PM6、PP1–PP5」這些致病性標準，相當於在問題框架上就已經在引導模型去尋找致病證據。

模型讀到 BRCA2 基因 + nonsense 變異型態（p.Lys3326Ter），啟動了 PVS1 的直覺判斷框架，忽略了最重要的頻率數據（BA1 條件）。反觀 Concise 的「ACMG classify BRCA2 c.9976A>T (nonsense, common population variant). One sentence.」——只有 83 個字元，沒有預先設定框架，反而讓模型完整評估了所有方向，三次全部答對。

這個結果本身就是一個警告：過於詳細的「專家角色設定」prompt，在邊緣案例（尤其是 Benign 變異）上可能比什麼都不說更危險。

V2 TP53 的意外插曲

V2（TP53 c.817C>T，Pathogenic）的 Verbose 和 Structured 品質都只有 44.4%。TP53 p.Arg273Cys 雖然是知名的 hotspot missense，但它的主要 ACMG criteria 是 PS1、PM1 而非 PVS1（不是 null variant）。Verbose 框架過度強調 PVS1 判斷流程，反而導致模型對非 null variant 的論述方向發散。

Concise 反而因為不預設框架，給了模型直接找 hotspot mutation 相關的 PS1 證據的機會，品質達到 77.8%。

Thinking Token Tax：複雜度上去了，思考量沒有等比例增加

Thinking Token Tax（思考 Token 稅）是指有推理能力（extended thinking）的模型在產出最終結果前，於背景計算的 token 成本，特點是它不會隨著 prompt 長度成正比線性增長。

查詢類型	字元數	Input Tokens	Thoughts Tokens	思考比例	延遲
Simple（ACMG 縮寫解釋）	39	941	23	2.4%	15s
Medium（單一變異分類）	59	33,023	676	2.0%	50s
Complex（逐步 criteria 評估）	306	34,313	1,097	3.2%	53s

Simple 到 Medium 的 thoughts tokens 跳了 29 倍（23 → 676），延遲跳了 3.3 倍。但 Medium 到 Complex 雖然 prompt 長了 5 倍、要求逐步列出 PVS1/PS/PM 等 9 個標準，thoughts tokens 只增加了 1.6 倍（676 → 1,097），延遲幾乎沒有變（50s → 53s）。

Extended Thinking 的 budget 並不跟 prompt 長度成正比。對於 ACMG 分類這種高度結構化、知識密集的任務，模型的思考量在中等複雜度時就已接近天花板。把 prompt 寫得更詳細只是在增加 input token，思考深度並沒有相應增加。

這個發現有實務意義：如果你想讓 Gemini 更「認真思考」ACMG 分類，與其把 prompt 寫得更詳細，不如直接在 structured format 裡明確要求「Step-by-step evaluation」，讓 output 格式帶動思考結構，而不是靠 input 長度。

實務建議：為 NGS 分析設計 Prompt 的四條守則

Never frame a diagnostic prompt pathogenesis-first：不要在 prompt 開頭就列滿 PVS1、PS1–PS4 等致病性標準。Benign variant 在這種框架下會被系統性誤判。
Concise beats Verbose on quality：在有 ground truth 驗證的場景下，短而精確的 prompt 品質更高（81.5% vs 48.1%）。
Structured wins on speed：Structured format（欄位式）雖然品質略低於 Concise，但它的 input token variance 在快取暖機後明顯更穩定，適合批次評估管線。
n=1 token 測量沒有意義：stdev 高達數千的環境下，任何單次比較都可能是快取命中率的幸運／不幸，請至少 n=3 並隔組清除快取。