我国科研团队突破生命科学边界 构建全球首个虚拟细胞动态预测系统

(问题)单细胞测序技术的普及,让科研人员能够单个细胞尺度观察基因表达差异,从而识别细胞类型、追踪发育轨迹、解析肿瘤异质性。但单细胞数据在很大程度上仍是“瞬时截面”:它能呈现某一时刻细胞处于什么状态,却难以直接回答“如果施加药物、进行基因编辑或遭遇环境压力,细胞会如何变化”。这种从“静态描述”走向“动态推演”的能力缺口,长期影响实验设计效率和干预策略优化。 (原因)此瓶颈主要来自三上:其一,细胞状态由成千上万个基因共同决定,维度极高,基因间存复杂的协同与制约;其二,干预实验成本高、周期长,不同实验平台与样本来源带来的批次差异明显,使“可复用、可推广”的预测框架更难建立;其三,传统建模往往依赖特定假设或局部机制,面对跨组织、跨疾病、跨条件任务时,泛化能力容易受限。归根结底,研究界既需要更强的表达能力,也需要更稳健的数据融合与不确定性控制手段。 (影响)因此,达摩院团队于2026年3月27日发布论文(arXiv:2603.25240v1),提出名为“灵枢-Cell”的虚拟细胞世界模型,试图构建一个可生成、可补全、可推演的细胞状态表达框架。研究团队将单细胞基因表达数据类比为由约1.8万个“词汇”组成的“文本”,并引入“掩码离散扩散模型”等方法:训练时随机遮蔽部分基因表达信息,让模型在全局关联约束下学习重建细胞状态。与按固定顺序逐个预测不同,这类方法强调在多个位置同时推断,更有利于捕捉基因网络的整体耦合关系。 业内人士指出,若对应的模型在更多权威数据集与真实干预实验中得到验证,可能带来三上影响:一是为药物研发提供更快的体外计算筛选和机制假设生成工具,降低“盲试”成本;二是帮助疾病研究在细胞层面建立可检验的“干预—反应”路径,增强对耐药、复发、炎症反应等复杂过程的解释力;三是推动单细胞数据从“注释与归类”为主,更走向“模拟与预测”为导向,促进实验与计算的闭环迭代。 (对策),虚拟细胞世界要真正走向可用、可信,仍需共同推进若干规范化工作:一要加强数据治理与标准建设,提高不同平台、不同批次数据的可比性,完善元数据记录与质量控制;二要强调可解释、可验证,围绕关键预测结论开展跨实验室复现与对照实验,明确模型适用边界;三要重视安全与伦理合规,确保数据使用、模型输出及潜在临床转化符合隐私保护与监管要求;四要推动开放评测体系建设,形成覆盖不同组织、不同疾病、不同干预方式的基准测试与统一指标,避免“只在单一场景有效”的技术泡沫。 (前景)从趋势看,随着单细胞、多组学与空间转录组等数据持续积累,以生成式模型为代表的计算框架有望在“多尺度生命系统建模”中发挥更大作用:在微观层面模拟细胞状态迁移,在中观层面连接组织微环境,在宏观层面辅助理解疾病进程与治疗窗口。未来若进一步结合生物机制先验、因果推断与高通量验证平台,虚拟细胞模型或将成为药物发现与精准医学的重要基础设施之一。

从“拍清楚一张细胞照片”到“推演细胞如何演化”,标志着生命科学工具链正在升级。虚拟细胞世界的探索为科研打开了新的想象空间,也对数据质量、实验验证和行业规范提出了更高要求。只有坚持以科学问题为牵引、以可验证为准绳、以开放协作为路径,模型化成果才能更稳健地服务基础研究与医药创新。