问题:基因组信息体量庞大且结构复杂,长期以来阻碍了生命科学从“局部研究”迈向“系统认知”。基因组由数十亿碱基对组成——缺乏明确的“标点符号”——重复序列和远距离调控现象普遍存。传统研究方法通常聚焦于少数已知基因或特定区域进行实验验证,但在面对“意义未明变异”、跨物种功能迁移以及复杂真核生物调控网络等关键问题时,效率较低且存在大量盲区,难以满足药物研发、临床遗传诊断和合成生物制造等领域日益增长的需求。 原因:近年来,深度学习在序列建模领域的突破推动了“基因组语言模型”的发展,但现有模型在训练范围和长序列处理能力上仍存在局限。2024年,研究团队曾推出Evo 1模型,主要基于原核生物和噬菌体基因组训练,可用于预测突变效应并设计功能序列,但对真核生物基因组的复杂调控、跨尺度结构和长程依赖关系的捕捉能力不足。此次《自然》杂志发表的Evo 2模型,针对数据覆盖面、序列长度和通用性三大瓶颈进行了系统性升级:首先,扩展训练数据,构建了名为OpenGenome2的数据集,涵盖超过12.8万个完整基因组及宏基因组数据,总计9.3万亿核苷酸,覆盖细菌、古菌、真核生物和病毒等生命领域;其次,优化模型结构,结合卷积过滤与门控机制,提升长程依赖学习能力和计算效率,使其能够一次性处理长达100万个核苷酸的超长序列;此外,依托大规模算力集群(超过2000颗H100 GPU)进行数月训练,旨在从海量进化信息中提取更通用的“序列语法”和“功能规律”。 影响:Evo 2在“预测”和“生成”两上的突破为基础研究和产业应用开辟了新空间。预测上,其零样本和少样本泛化能力表现突出。测试显示,区分乳腺癌涉及的基因BRCA1的有害突变与良性变异时,模型预测准确率超过90%,为临床处理大量“意义未明变异”提供了新工具,有望加速遗传咨询、风险评估和个体化治疗的决策过程。在生成上,Evo 2不仅能“解读”序列,还能“设计”序列:研究团队展示了其在简化细菌基因组、人类线粒体基因组以及酵母染色体片段等任务中的设计能力;甚至在论文发表前,团队已利用Evo系列模型设计并合成了功能性噬菌体序列,部分序列导入大肠杆菌后成功产生活病毒并表现出杀菌效果。该成果表明,数据驱动的序列生成正从概念验证迈向工程化应用阶段,未来可能影响抗感染疗法研发、工业菌株改造和生物制造路径设计。 对策:业内人士指出,技术突破的同时,规范治理与安全边界也需同步推进。首先,建立更严格的模型评估与可解释性框架,尤其在临床应用中,需将模型输出纳入多证据链验证体系,明确适用范围和不确定性表达,避免“黑箱结论”直接用于诊疗决策。其次,加强生物安全与双重用途风险管理,对可能涉及病原体相关序列生成、传播适应性增强或检测逃逸风险的功能实施分级访问、审查和追踪机制,推动科研机构、企业和监管部门制定可操作的合规流程。此外,完善高质量数据治理与开放协作机制,在合规前提下改进跨物种基因组资源、注释体系和基准测试集建设,减少数据偏差对模型结论的影响。最后,加强跨学科合作与平台能力建设,促进计算、生命科学、医学和工程团队协同验证,提升从模型预测到实验验证再到产品化的转化效率。 前景:多方观点认为,“通用生命序列建模”仍处于快速发展阶段。随着训练数据的扩充、模型结构的优化以及实验验证规模的扩大,该技术有望在罕见病致病变异分析、肿瘤个体化用药线索发现、酶与代谢通路设计、抗生素替代方案开发等领域形成更成熟的应用模式。但需注意的是,生命系统的表型表达受环境、表观遗传、细胞状态和群体进化等多因素影响,仅靠序列层面无法完全揭示生物学机制。未来,将序列模型与多组学数据、结构生物学信息及自动化实验平台深度融合,可能是提升技术可靠性和可转化性的关键路径。
当科学工具从“解读生命密码”迈向“编写生命篇章”,人类正站在生物学的历史性转折点。Evo 2不仅展现了技术能力的飞跃,更凸显了跨学科协作对揭示生命奥秘的重要性。如何在创新与伦理之间找到平衡,将成为全球科学界下一阶段的重要课题。