上海AI Lab:真实场景虚拟细胞模型基准评测
摘要虚拟细胞模型旨在通过计算预测细胞对各类扰动的响应,已成为药物研发与精准医疗的前沿手段。但当前研究存在明显缺口:各类模型在标准基准测试中表现优异,但其预测结果在实际应用中的生物学意义尚不明确。这主要源于现有评估方案的缺陷——评估设置过度简化、流程不统一,无法反映真实生物系统的复杂性与变异性。本文提出1套标准化、模块化的虚拟细胞预测基准评测框架,在未见细胞背景、未见扰动类型、跨数据集泛化3类真实挑战性场景下评测各类模型,更贴合实际应用需求。分析表明,模型性能具有高度的场景依赖性,受任务设计与评估标准显著影响;常规评估设置会高估模型性能,简单的数据集合并策略甚至会降低性能;严格泛化条件下模型性能大幅下降,表明模型对细胞背景偏移的鲁棒性有限。在未见扰动场景中,包括简单线性模型在内的各类方法仅能捕捉全局转录趋势,无法还原细粒度的扰动特异性效应。此外,不同评估指标侧重不同的生物学特性,导致模型排名差异显著。本框架提供了更可靠、贴合生物学意义的评估方案,为虚拟细胞模型的实际应用提供清晰指引。sunsiqi1@pjlab.org.cngaozhangyang@pjlab.org.cn#虚拟细胞模型#扰动响应预测#单细胞测序#基准评测#泛化性能#跨数据集整合#评估指标结果虚拟细胞预测基准评测框架图1VCBench基准评测流程与方法总览(a) 虚拟细胞预测示意图。虚拟细胞模型以扰动前细胞状态为输入,包括基因表达谱及可选的细胞类型、扰动标识(如基因敲除、药物处理)等背景信息,目标是预测扰动后的基因表达,同时捕捉全局表达偏移与基因水平响应。(b) 将虚拟细胞预测分为3类场景:未见细胞泛化、未见扰动泛化、多数据集合并。在每类场景下,基于6项代表性研究的7个常用数据集,评测11种典型方法,并采用3类指标开展全面对比。未见细胞泛化场景的基准评测分析图2基于单细胞基础模型嵌入与随机划分策略的未见细胞评测