《自然》发表超大规模生物学基础模型Evo 2：基因组研究迈向“可预测、可设计”的新阶段

问题：基因组信息体量庞大且结构复杂，长期以来阻碍了生命科学从“局部研究”迈向“系统认知”。基因组由数十亿碱基对组成——缺乏明确的“标点符号”——重复序列和远距离调控现象普遍存。传统研究方法通常聚焦于少数已知基因或特定区域进行实验验证，但在面对“意义未明变异”、跨物种功能迁移以及复杂真核生物调控网络等关键问题时，效率较低且存在大量盲区，难以满足药物研发、临床遗传诊断和合成生物制造等领域日益增长的需求。原因：近年来，深度学习在序列建模领域的突破推动了“基因组语言模型”的发展，但现有模型在训练范围和长序列处理能力上仍存在局限。2024年，研究团队曾推出Evo 1模型，主要基于原核生物和噬菌体基因组训练，可用于预测突变效应并设计功能序列，但对真核生物基因组的复杂调控、跨尺度结构和长程依赖关系的捕捉能力不足。此次《自然》杂志发表的Evo 2模型，针对数据覆盖面、序列长度和通用性三大瓶颈进行了系统性升级：首先，扩展训练数据，构建了名为OpenGenome2的数据集，涵盖超过12.8万个完整基因组及宏基因组数据，总计9.3万亿核苷酸，覆盖细菌、古菌、真核生物和病毒等生命领域；其次，优化模型结构，结合卷积过滤与门控机制，提升长程依赖学习能力和计算效率，使其能够一次性处理长达100万个核苷酸的超长序列；此外，依托大规模算力集群（超过2000颗H100 GPU）进行数月训练，旨在从海量进化信息中提取更通用的“序列语法”和“功能规律”。影响：Evo 2在“预测”和“生成”两上的突破为基础研究和产业应用开辟了新空间。预测上，其零样本和少样本泛化能力表现突出。测试显示，区分乳腺癌涉及的基因BRCA1的有害突变与良性变异时，模型预测准确率超过90%，为临床处理大量“意义未明变异”提供了新工具，有望加速遗传咨询、风险评估和个体化治疗的决策过程。在生成上，Evo 2不仅能“解读”序列，还能“设计”序列：研究团队展示了其在简化细菌基因组、人类线粒体基因组以及酵母染色体片段等任务中的设计能力；甚至在论文发表前，团队已利用Evo系列模型设计并合成了功能性噬菌体序列，部分序列导入大肠杆菌后成功产生活病毒并表现出杀菌效果。该成果表明，数据驱动的序列生成正从概念验证迈向工程化应用阶段，未来可能影响抗感染疗法研发、工业菌株改造和生物制造路径设计。对策：业内人士指出，技术突破的同时，规范治理与安全边界也需同步推进。首先，建立更严格的模型评估与可解释性框架，尤其在临床应用中，需将模型输出纳入多证据链验证体系，明确适用范围和不确定性表达，避免“黑箱结论”直接用于诊疗决策。其次，加强生物安全与双重用途风险管理，对可能涉及病原体相关序列生成、传播适应性增强或检测逃逸风险的功能实施分级访问、审查和追踪机制，推动科研机构、企业和监管部门制定可操作的合规流程。此外，完善高质量数据治理与开放协作机制，在合规前提下改进跨物种基因组资源、注释体系和基准测试集建设，减少数据偏差对模型结论的影响。最后，加强跨学科合作与平台能力建设，促进计算、生命科学、医学和工程团队协同验证，提升从模型预测到实验验证再到产品化的转化效率。前景：多方观点认为，“通用生命序列建模”仍处于快速发展阶段。随着训练数据的扩充、模型结构的优化以及实验验证规模的扩大，该技术有望在罕见病致病变异分析、肿瘤个体化用药线索发现、酶与代谢通路设计、抗生素替代方案开发等领域形成更成熟的应用模式。但需注意的是，生命系统的表型表达受环境、表观遗传、细胞状态和群体进化等多因素影响，仅靠序列层面无法完全揭示生物学机制。未来，将序列模型与多组学数据、结构生物学信息及自动化实验平台深度融合，可能是提升技术可靠性和可转化性的关键路径。

当科学工具从“解读生命密码”迈向“编写生命篇章”，人类正站在生物学的历史性转折点。Evo 2不仅展现了技术能力的飞跃，更凸显了跨学科协作对揭示生命奥秘的重要性。如何在创新与伦理之间找到平衡，将成为全球科学界下一阶段的重要课题。