生醫文摘:Spatial gene expression at single-cell resolution from histology using deep learning with GHIST

文章標題

Spatial gene expression at single-cell resolution from histology using deep learning with GHIST

文章概要

GHIST 的精髓在於把便宜普及的 H&E 病理影像「變出」空間轉錄體:以少量可配對的H&E×次世代原位轉錄體(如 Xenium)做監督學習,訓練出一個多任務網路,推論時只需 H&E,就能在單細胞尺度預測多基因表達,還可切換到 spot 尺度;模型同時學四層訊息並彼此強化——先用 UNet 類骨幹抓核形與分割(形態特徵),再用輔助任務約束「細胞型別」與「鄰域組成」,最後以主任務輸出單細胞基因表達(可選擇引入單細胞參考譜並用 cross-attention 微調),因此不但能重建與實測高度一致的基因/細胞型空間分布,還能把預測表達彙整做下游生醫分析(生存分群、亞群發現、與 SCNA 熱區的空間耦合等),等於為既有的大型 H&E 隊列無痛加上一層「準空間轉錄體」模態,實務上以極少配對切片即可得到數萬細胞級標籤、具泛化與臨床可轉譯潛力。

名詞解釋

H&E(Hematoxylin & Eosin)

  • 是什麼:最常見的病理染色;蘇木精染核、伊紅染胞質與基質。
  • 為什麼重要:便宜、普及、幾乎所有切片都有。
  • 怎麼用:GHIST 只靠 H&E 圖像就預測空間基因表達(訓練時需少量與 SRT 配對的樣本)。

WSI(Whole-Slide Image)

  • 是什麼:理玻片的高解析數位影像。
  • 為什麼重要:提供數十萬細胞的形態資訊。
  • 怎麼用:切成高解析 patches 餵給模型訓練/推論。

SRT(Spatial Transcriptomics,空間轉錄體學)

  • 是什麼:測量在組織中的位置與基因表達的技術總稱。
  • 為什麼重要:連結「在哪裡」與「表達了什麼」。
  • 怎麼用:作為監督訊號教模型把形態→表達建立映射。

SST(次世代原位轉錄體;如 Xenium、CosMx、MERFISH)

  • 是什麼:把 mRNA 在單細胞/亞細胞位置直接原位讀出。
  • 為什麼重要:解析度高、可細到單細胞。
  • 怎麼用:與 H&E 對齊配對,提供單細胞真值訓練 GHIST。

Xenium

  • 是什麼:10x 的原位轉錄體平台(探針面板、螢光循環讀出)。
  • 為什麼重要:常被用作單細胞空間真值。
  • 怎麼用:與同片 H&E 配對出成千上萬個「細胞級」訓練樣本。

UNet / UNet 3+

  • 是什麼:語意分割網路;UNet 3+ 加了多尺度特徵聚合。
  • 為什麼重要:精準切出細胞核/細胞,抓形態紋理。
  • 怎麼用:作為 GHIST 的影像骨幹,產出核形/紋理/環境特徵供後續任務使用。

多任務學習(Multitask Learning)

  • 是什麼:同一模型同時學多個相關任務,用共享特徵互補
  • 為什麼重要:穩定、可提高主任務(基因預測)表現。
  • 怎麼用:GHIST 同時學核形分割/細胞型別/鄰域組成/基因表達四層訊息。

主任務 vs. 輔助任務

  • 是什麼:主任務=單細胞基因表達預測;輔助任務=細胞型別、鄰域組成等。
  • 為什麼重要:輔助任務提供生物先驗,用來優化基因表達預測。
  • 怎麼用:共同反向傳播;權重可調,避免某任務主宰訓練。

鄰域組成(Neighborhood Composition)

  • 是什麼:某個細胞周圍一定半徑內各細胞型的比例向量。
  • 為什麼重要:微環境影響基因表達(如腫瘤-免疫交互)。
  • 怎麼用:作為輔助任務的標籤,也可做為 query 特徵餵給基因頭。

參考表達譜(Reference Profile)

  • 是什麼:外部單細胞資料庫的平均表達向量(按 cell type)。
  • 為什麼重要:提供「這類細胞應該長這樣」的先驗。
  • 怎麼用:GHIST 可選擇性引入,與影像特徵**跨注意力(cross-attention)**融合。

Cross-Attention(跨注意力)

  • 是什麼:一組特徵(如鄰域/參考譜)作為 Query,去加權選擇另一組特徵(如影像→基因表示)的關鍵部分。
  • 為什麼重要:把「生物上下文」動態注入到基因預測。
  • 怎麼用:提升特定情境下(如某鄰域)基因預測的精度/穩定性。

SVG / HVG

  • 是什麼:Spatially Variable Genes(空間變異基因);Highly Variable Genes(高變異基因)。
  • 為什麼重要:衡量模型是否抓到空間訊號與表達差異的兩種維度。
  • 怎麼用:以這些基因計算實測 vs. 預測的相關(PCC)與結構相似(SSIM)。

PCC / SSIM

  • 是什麼:PCC 皮爾森相關;SSIM 結構相似度(影像常用)。
  • 為什麼重要:同時評估「數值趨勢」與「空間結構」的吻合度。
  • 怎麼用:在單基因地圖或多基因集合上計分,比對 GHIST 與真值。

pseudo-bulk

  • 是什麼:把預測(或實測)的單細胞表達在某個區域/個體加總或平均成類 bulk。
  • 為什麼重要:可與臨床結局(生存、分型)接軌。
  • 怎麼用:以 pseudo-bulk 特徵做 Cox/KM、分群、預後模型。

Cox / KM / C-index

  • 是什麼:生存分析三件套;Cox 比例風險模型、Kaplan-Meier 曲線、C-index 預測排序準確度。
  • 為什麼重要:驗證預測表達是否具臨床分辨力。
  • 怎麼用:把 GHIST 的空間/細胞型特徵丟進 Cox;看 KM 分群與 C-index。

SCNA(Somatic Copy-Number Alteration)

  • 是什麼:體細胞拷貝數變化(擴增/缺失)。
  • 為什麼重要:影響下游表達與空間模式(如 17q HER2 區)。
  • 怎麼用:把 SCNA 熱區與 GHIST 的空間表達模式做關聯,找基因組-轉錄體的空間耦合。

Domain Shift / 泛化(Generalization)

  • 是什麼:資料來源差異造成的分佈改變(不同醫院/掃描儀/染色)。
  • 為什麼重要:影像模型最常見的掉坑點。
  • 怎麼用:多中心資料、顏色正規化、增廣;用多任務監督提升魯棒性。
Yang-Hong Dai 戴揚紘
Yang-Hong Dai 戴揚紘
主治醫師

我的研究興趣為結合數據分析來探討各種癌症生物學。

comments powered by Disqus