Google DeepSomatic 如何重塑癌症基因體學的未來

#ai #security #bioinformatics #genomics

Google DeepSomatic 如何重塑癌症基因體學的未來

過去在處理癌症數據時，最頭痛的問題之一就是遇到各種「雜訊」，在基因體中針對癌症的研究，常常是是一個混雜的生態系 — 有正常細胞、有各種突變的癌細胞，在癌症基因體研究中要找的，是那些在癌細胞中的「體細胞變異」（Somatic Variants）。

過去常用的像是 MuTect2等工具，多半依賴統計模型和一堆制式的規則來過濾和篩選雜訊，在癌症研究中，當突變的頻率 Variant Allele Frequency很低時，就很容易把它們當成定序錯誤給Drop掉。

這就是為什麼 Google 的 DeepVariant 幾年前問世時，會引起這麼大的騷動，它把「變異點偵測」這個問題，從過去的「統計問題」重新定義為一個「影像辨識問題」。

師承 DeepVariant，專攻癌症

DeepSomatic 基本上就是 DeepVariant 的「癌症版」，同樣使用深度神經網路（DNN），把定序儀讀出來的序列（reads）在某個位置的堆疊（pileups），當成一張「影像」來看並進行分析。

對 DeepSomatic 來說，一個「真正的突變」訊號，即使很微弱，它在影像上的特徵（例如錯誤分佈、read 的方向性、品質分數等）和隨機的「定序錯誤」是截然不同的。舉例來說，在追蹤癌症復發時，我們需要偵測「微小殘留病灶」（MRD, Minimal Residual Disease），這時癌細胞的訊號可能只佔了所有 DNA 訊號的 0.1% 不到，如果使用傳統工具，根本撈不到，而 DeepSomatic 這種經過「影像訓練」的 AI，就有更高的機會抓到這關鍵的復發訊號。

跨平台的一致性

DeepSomatic 真正讓人眼前一亮的核心，是它在支援跨定序平台上的表現。在醫院中，數據來源永遠是混亂的，A分院可能用 Illumina 的短序列（short-read）技術做大規模篩檢，B 分院的研究單位可能用 PacBio HiFi 這種長序列（long-read）技術來解構複雜的基因結構變異，而Ｃ醫院可能又是基於某家廠商的short-read平台做分析。

在現有的臨床WGS/WES分析上，背後的生資技術人員需要用兩套以上的不同的演算法與Pipeline 去分析處理這些數據，而得到的 VCF也會依照平台會有差異，在臨床上很容易面臨「整合」問題。

DeepSomatic 能夠同時吃進 Illumina、PacBio HiFi、甚至是 Ultima Genomics 的數據，並且在這些截然不同的數據源上，找出一致的體細胞變異。透過了解影像上的「生物訊號」，未來我們可以整合來自全球不同實驗室、用不同儀器做的數據，來進行更大規模的癌症研究（Mega-analysis）。同時也代表，當某天醫院升級了新的定序設備後，我們也不需要重寫整套分析流程，DeepSomatic 可以無縫接軌。

DeepSomatic的可解釋性

過去在 IGV Browser 中審核一個 VCF 時，大概會有下面幾個步驟：

確認VAF (變異頻率)。
確認 strand bias（是否所有突變都在 F1R2 鏈上？）。
確認 base quality（是否都集中在 read 尾端？）。
確認 mapping quality（這些 reads 是不是都比對得很差？）。

如果一個 VAF=5% 的 C>T 突變，它所有的 reads 都來自 F1R2 鏈，而且 base quality 都偏低，大概都會判斷要剔除。而傳統的 MuTect2 會用單一的 strand_bias_filter 規則去抓它，但不一定抓得準。

DeepSomatic (DeepVariant) 的訓練過程，就是讓 AI 去「看」數百萬張的 pileup 影像，並對照「黃金標準」(Truth Sets) 來學習，也因此，可以推算AI 的判斷邏輯，正在無限逼近一位「經驗豐富的生資專家」的判斷邏輯。

當看到 DeepSomatic 產出的 VCF結果，一個Variant的 QUAL=150，可以直接相信：「DeepSomatic有很高的信心判斷這不是一個 reference (0/0)」。

同樣的，在 FORMAT 欄位中的 GQ (Genotype Quality)，一個 GQ=99 的 0/1 體細胞突變，其證據強度遠高於一個 GQ=20 的 0/1 突變。

DeepSomatic從模型 Softmax 層輸出的 Phred-scaled 機率，更是一種是「量化的信心」分數，如果再搭配其他如 Grad-CAM 或 Saliency Maps等利用Heatmap來協助模型可解釋性的套件，我們可能也能發現熱力圖會在那些 base quality 高、mapping quality 好、且雙向 read 都支持的 reads 上。

從DeepVariant開始到Alpha Genome再到DeepSomatic ，證明了 AI 不只是能幫醫生看 X 光片或病理切片，AI 也能直接「讀懂」最原始、最底層的基因序列數據。

除此之外，在官方Repo中也直接提供了 Dockerfile（ Dockerfile.deepsomatic）代表它不是一個學術玩具，而是從一開始就準備好要上戰場、要被整合進地端（on-prem）的 HPC 叢集或雲端（Cloud）的分析流程中。

從原始數據（BAM/CRAM）到可執行的臨床洞見（actionable insight），中間這段最耗時耗力的生物資訊分析，正在被 AI 快速地、更精準地填補起來，下一篇我們再來看看一些實際執行的demo。

# ai # bioinformatics # genomics