Google DeepSomatic 如何重塑癌症基因體學的未來
過去在處理癌症數據時,最頭痛的問題之一就是遇到各種「雜訊」,在基因體中針對癌症的研究,常常是是一個混雜的生態系 — 有正常細胞、有各種突變的癌細胞,在癌症基因體研究中要找的,是那些在癌細胞中的「體細胞變異」(Somatic Variants)。
過去常用的像是 MuTect2等工具,多半依賴統計模型和一堆制式的規則來過濾和篩選雜訊,在癌症研究中,當突變的頻率 Variant Allele Frequency很低時,就很容易把它們當成定序錯誤給Drop掉。
這就是為什麼 Google 的 DeepVariant 幾年前問世時,會引起這麼大的騷動,它把「變異點偵測」這個問題,從過去的「統計問題」重新定義為一個「影像辨識問題」。
師承 DeepVariant,專攻癌症
DeepSomatic 基本上就是 DeepVariant 的「癌症版」,同樣使用深度神經網路(DNN),把定序儀讀出來的序列(reads)在某個位置的堆疊(pileups),當成一張「影像」來看並進行分析。
對 DeepSomatic 來說,一個「真正的突變」訊號,即使很微弱,它在影像上的特徵(例如錯誤分佈、read 的方向性、品質分數等)和隨機的「定序錯誤」是截然不同的。舉例來說,在追蹤癌症復發時,我們需要偵測「微小殘留病灶」(MRD, Minimal Residual Disease),這時癌細胞的訊號可能只佔了所有 DNA 訊號的 0.1% 不到,如果使用傳統工具,根本撈不到,而 DeepSomatic 這種經過「影像訓練」的 AI,就有更高的機會抓到這關鍵的復發訊號。
跨平台的一致性
DeepSomatic 真正讓人眼前一亮的核心,是它在支援跨定序平台上的表現。在醫院中,數據來源永遠是混亂的,A分院可能用 Illumina 的短序列(short-read)技術做大規模篩檢,B 分院的研究單位可能用 PacBio HiFi 這種長序列(long-read)技術來解構複雜的基因結構變異,而C醫院可能又是基於某家廠商的short-read平台做分析。
在現有的臨床WGS/WES分析上,背後的生資技術人員需要用兩套以上的不同的演算法與Pipeline 去分析處理這些數據,而得到的 VCF也會依照平台會有差異,在臨床上很容易面臨「整合」問題。
DeepSomatic 能夠同時吃進 Illumina、PacBio HiFi、甚至是 Ultima Genomics 的數據,並且在這些截然不同的數據源上,找出一致的體細胞變異。透過了解影像上的「生物訊號」,未來我們可以整合來自全球不同實驗室、用不同儀器做的數據,來進行更大規模的癌症研究(Mega-analysis)。同時也代表,當某天醫院升級了新的定序設備後,我們也不需要重寫整套分析流程,DeepSomatic 可以無縫接軌。
DeepSomatic的可解釋性
過去在 IGV Browser 中審核一個 VCF 時,大概會有下面幾個步驟:
確認VAF (變異頻率)。
確認 strand bias(是否所有突變都在 F1R2 鏈上?)。
確認 base quality(是否都集中在 read 尾端?)。
確認 mapping quality(這些 reads 是不是都比對得很差?)。
如果一個 VAF=5% 的 C>T 突變,它所有的 reads 都來自 F1R2 鏈,而且 base quality 都偏低,大概都會判斷要剔除。而傳統的 MuTect2 會用單一的 strand_bias_filter 規則去抓它,但不一定抓得準。
DeepSomatic (DeepVariant) 的訓練過程,就是讓 AI 去「看」數百萬張的 pileup 影像,並對照「黃金標準」(Truth Sets) 來學習,也因此,可以推算AI 的判斷邏輯,正在無限逼近一位「經驗豐富的生資專家」的判斷邏輯。
當看到 DeepSomatic 產出的 VCF結果,一個Variant的 QUAL=150,可以直接相信:「DeepSomatic有很高的信心判斷這不是一個 reference (0/0)」。
同樣的,在 FORMAT 欄位中的 GQ (Genotype Quality),一個 GQ=99 的 0/1 體細胞突變,其證據強度遠高於一個 GQ=20 的 0/1 突變。
DeepSomatic從模型 Softmax 層輸出的 Phred-scaled 機率,更是一種是「量化的信心」分數,如果再搭配其他如 Grad-CAM 或 Saliency Maps等利用Heatmap來協助模型可解釋性的套件,我們可能也能發現熱力圖會在那些 base quality 高、mapping quality 好、且雙向 read 都支持的 reads 上。
從DeepVariant開始到Alpha Genome再到DeepSomatic ,證明了 AI 不只是能幫醫生看 X 光片或病理切片,AI 也能直接「讀懂」最原始、最底層的基因序列數據。
除此之外,在官方Repo中也直接提供了 Dockerfile( Dockerfile.deepsomatic)代表它不是一個學術玩具,而是從一開始就準備好要上戰場、要被整合進地端(on-prem)的 HPC 叢集或雲端(Cloud)的分析流程中。
從原始數據(BAM/CRAM)到可執行的臨床洞見(actionable insight),中間這段最耗時耗力的生物資訊分析,正在被 AI 快速地、更精準地填補起來,下一篇我們再來看看一些實際執行的demo。

Top comments (0)