01文献信息本次分享的文献是由德国德累斯顿工业大学 Else Kröner-Fresenius 数字健康中心Jakob Nikolas Kather教授团队联合德国海德堡国家肿瘤疾病中心、奥地利维也纳医科大学、美国梅奥诊所、世界卫生组织国际癌症研究机构等10余家机构与2025年8月在柳叶刀子刊《Lancet Digital Health》中科院1区IF24.1上发表的研究“Assessing genotype−phenotype correlations in colorectal cancer with deep learning: a multicentre cohort study”即利用深度学习评估结直肠癌的基因型 - 表型相关性一项多中心队列研究开发并验证一种多靶点Transformer深度学习模型利用结直肠癌HE染色的数字病理切片同时预测多种基因突变与分子标志物状态如MSI、BRAF、KRAS、RNF43、BMPR2等以探索基因型–表型之间的联系。研究包含来自七个独立队列共1912例患者模型实现了对多种遗传改变的高精度预测并揭示了与MSI形态学特征共享的深度学习可解释模式。02研究背景1. 研究问题现有基于深度学习的结直肠癌分子标志物预测研究存在两大局限单一目标聚焦多数研究仅针对单个标志物如MSI、BRAF、KRAS缺乏对多种基因改变的系统预测无法满足临床对多靶点评估的需求混淆效应忽视未充分考虑基因改变的共现性如BRAF突变与MSI常同时出现及共享形态学特征如MSI与BRAF突变均关联黏液分化对预测结果的干扰可能导致模型偏倚。2. 研究难点数据稀缺缺乏覆盖多人群、多中心的“病理切片-全基因组测序”匹配数据集难以支撑多目标模型训练资源消耗大传统单目标模型需为每个预测靶点单独训练耗时且占用大量计算资源临床转化效率低。3. 解决思路构建多目标Transformer架构实现“一次训练、多靶点预测”降低资源消耗整合多中心队列数据含测序与病理信息覆盖更多基因改变类型通过共现分析和形态学可视化量化基因共现与共享形态学的影响提升模型解释性。03研究目标开发基于深度学习的多目标模型从结直肠癌HE染色切片中同时预测多种基因改变及表型包括MSI、超突变、BRAF、RNF43、KRAS等验证模型在外部队列中的通用性并比较其与单目标模型的性能差异分析基因改变的共现模式及与形态学特征的关联揭示基因型-表型相互作用机制评估模型的临床应用潜力为结直肠癌精准诊断提供工具。04模型架构多目标Transformer模型架构Transformer编码器-解码器架构图像预处理将全切片图像WSI分割为224×224像素的tiles对应256×256μm组织区域通过亮度阈值≥224和Canny边缘检测边缘像素≤2%剔除背景和模糊tiles特征提取使用预训练的CTransPath特征提取器固定参数不微调提取每个tile的768维特征向量特征降维通过全连接层将768维特征投影到512维降低模型复杂度并提升计算效率编码-解码编码器处理降维后的tile特征生成编码token解码器将编码token解码为对应每个预测目标的1×512维“类别token”每个token对应一个基因或表型预测输出通过全连接层将类别token转换为0-1的预测分数0野生型/阴性1突变型/阳性损失函数采用加权交叉熵损失权重为突变频率的倒数解决罕见突变的类别不平衡问题。05数据和方法研究数据数据规模与来源共纳入1912例结直肠癌患者来自7个独立队列分为训练集731例·、主要测试集645例和外部验证集536例数据类型病理数据HE染色病理切片数字化为WSI分辨率100000×50000像素分子数据全面面板测序数据覆盖356个基因包括表型MSI状态分为MSI和MSS按Liu等标准定义、超突变状态基因改变BRAF、RNF43、KRAS、TP53、APC、BMPR2等基因突变非沉默突变临床数据年龄、性别、种族、肿瘤分期等人口统计学和临床特征。数据预处理分子数据剔除每个类别样本数20的靶点确保模型稳定性连续型靶点按阈值离散化病理数据匿名化处理统一WSI格式研究方法1.模型训练与验证策略训练流程基于训练集731例进行七折交叉验证筛选中位性能最优的模型将7个模型的预测结果平均作为最终输出性能评估指标主要用AUROC受试者工作特征曲线下面积辅以AUPRC精确召回曲线下面积、灵敏度、特异度应对类别不平衡模型比较通过DeLong检验双侧比较多目标模型与单目标模型针对9个主要靶点的AUROC差异比较“含MSI目标的多目标模型”与“不含MSI目标的多目标模型”评估MSI对预测的影响。2.共现分析对GECCO队列的完整基因数据采用层次聚类欧氏距离Ward方法将基因按共现模式分组用关联规则挖掘识别基因改变与MSI的共现规律如“BRAF突变→MSI概率升高”量化共现强度。3.可解释性分析热图生成用Grad-CAM生成WSI热图可视化模型关注的高贡献区域红色高贡献蓝色低贡献TopTile分析提取每个靶点的前20个高注意力tiles手动审查其形态学特征如肿瘤结构、细胞类型类别token交互分析解码器中不同靶点类别token的相关性评估靶点间的预测干扰。4.统计分析描述性统计总结队列人口学和临床特征亚组分析按“MSI/MSS”和“突变/野生型”将样本分为4个亚组用Mann-Whitney检验组内和Wilcoxon检验组间分析预测分数差异图 1实验设计、队列特征与预测分析示意图06结果与分析1.模型性能多目标模型优于或匹配单目标模型在主要测试集CRAWHI中多目标模型在关键靶点上表现优异外部验证集TCGACPTAC中模型性能稳定如MSI的AUROC在TCGA为0.87、WHI为0.94BRAF在CRA为0.83。图 3多目标Transformer在GECCO外部队列的性能评估2.基因共现两大集群区分MSI/MSS关联靶点层次聚类将基因分为2个核心集群图2集群1与MSS相关包括TP53、KRAS、APC突变频率高但AUROC较低0.65-0.72集群2与MSI高度共现包括BRAF、BMPR2、ZNRF3、RNF43AUROC较高0.75-0.88且超突变与该集群显著关联关联规则支持度0.8。图 2GECCO队列结直肠癌基因改变共现分析3.形态学关联MSI相关形态是预测核心驱动因素高AUROC靶点如MSI、BRAF的预测高度依赖MSI特征形态髓样生长、大量肿瘤浸润淋巴细胞TILs、黏液分化图6集群1靶点如KRAS的高注意力区域对应“绒毛状腺瘤伴高级别异型增生”与已知KRAS突变关联形态一致亚组分析显示在MSS亚组中集群2靶点如BMPR2突变罕见仅3例模型区分突变/野生型的能力弱而在MSI亚组中预测分数与真实状态高度一致。图 4多目标模型的亚组预测分数评估4.可解释性模型聚焦肿瘤区域减少无关干扰热图显示模型主要关注肿瘤实质区域对背景、笔痕病理医生标注痕迹的注意力极低5%图 5代表性样本的预测热图展示5个GECCO外部验证集样本A-E的 “HE切片热图预测分数”样本 5AWHI 1031786KRAS 预测样本 5BWHI 1031557BRAF 预测样本 5CWHI 1031553超突变预测样本 5DCRA 5531KRAS 预测样本 5EWHI 1031672超突变预测Top Tile分析验证MSI的高贡献tiles多为“髓样癌TILs”BRAF的高贡献tiles多为“黏液分化区域”与病理特征一致。图 6关键预测靶点的顶级Tile验证07讨论1. 创新方向技术创新首次构建“多目标Transformer架构”用于结直肠癌多基因预测实现“一次训练、多靶点覆盖”降低计算资源消耗方法创新整合共现分析与形态学可视化量化基因-形态学关联填补了“深度学习模型黑箱”的解释性空白数据创新使用1912例多中心数据含5个GECCO队列2个公共队列覆盖更多人群和基因类型提升模型泛化性。2. 临床价值低成本预筛查HE切片是临床常规检查无需额外测序可作为结直肠癌分子标志物的“初筛工具”减少不必要的高价测序如仅对模型预测阳性者进行验证资源有限地区适配无需复杂设备仅需数字化切片即可运行适合医疗资源不足地区诊断流程优化同时提供多个靶点结果如MSI、BRAF、RNF43帮助医生快速制定精准治疗方案如BRAF突变患者可选用BRAF抑制剂。3. 局限性罕见突变性能不足样本量20的罕见突变如ALK、SMG1预测AUROC0.6需更大样本量优化人群代表性不足队列中白人占75.8%黑人4.3%、亚裔1.7%占比低可能存在种族偏倚形态学依赖的局限模型高度依赖MSI相关形态对“无典型MSI形态的突变”如MSS型BRAF突变预测准确性较低4. 技术亮点特征提取优化采用预训练的CTransPath提取器无需微调即可获得高质量病理特征减少训练成本类别不平衡处理加权交叉熵损失有效解决罕见突变的样本稀缺问题可解释性增强Grad-CAM热图Top Tile病理审查使模型预测与临床病理特征对应提升医生信任度。