谷歌旗下公司推出基因组解码模型 破解人类遗传密码中的“暗物质”

新华社伦敦1月29日电(记者郭爽)谷歌旗下DeepMind公司29日英国《自然》杂志发表封面文章,介绍其新推出的AlphaGenome模型。该模型能够对人类基因组中长期研究薄弱、却与健康密切对应的的非编码区进行系统性解析,为理解遗传疾病、优化基因检测解释和探索新疗法提供新的研究工具。 问题:非编码区调控信息长期制约精准解读 人类基因组由约30亿个DNA碱基对构成,其中仅约2%的区域直接编码蛋白质。其余98%为非编码区,虽然不直接生成蛋白质,却通过调控基因表达、影响剪接等方式参与生理过程。现实问题在于,许多与疾病相关的遗传变异位点分布在这些功能复杂的非编码区。对这些区域缺乏有效解读,导致部分变异在临床检测中"找得到却说不清",成为遗传病研究和精准诊疗的瓶颈。 原因:长序列处理与高精度预测难以兼顾 非编码区的调控作用往往涉及跨较长基因组范围的相互作用,信号既分散又精细。传统研究方法在处理长DNA序列时,常需在可处理的序列长度与预测分辨率之间取舍。序列截短可能丢失关键信息,而提高分辨率又会增加计算负担并影响模型稳定性。这使科研人员在解释变异影响、定位调控元件、推断表达变化各上面临信息不完整的困境。 影响:长序列高分辨率预测能力重塑变异与疾病的关联链条 AlphaGenome突破了该权衡,能对长达100万个碱基对的DNA序列进行高分辨率功能推断。该模型不仅能预测基因位置,还可评估非编码区对基因表达、基因剪接等过程的潜影响。更重要的是,它可预测单个碱基变化可能引发的分子层面后果,为解释"一个位点改变为何会导致疾病风险变化"提供了新的计算支撑。研究团队通过26项基准测试对模型进行评估,结果显示其在25项任务中达到或超过现有同类最先进水平。相关团队表示,该工具可帮助科研人员更快形成可验证的假设,提升对DNA功能与变异效应的理解效率。 对策:开放共享与严谨应用并行 该模型已于去年开放非商业用途,已有约3000名科学家使用。业内人士认为,开放共享有助于在多学科、多样本、多场景的真实应用中检验与迭代模型,推动形成更稳健的评估体系。但需要明确的是,任何预测工具都不能替代实验验证与临床证据。对于涉及诊疗决策的场景,应将模型输出与群体遗传学数据、功能实验结果、临床表型与家系信息等综合比对,避免将"预测"误用为"结论"。在管理层面,还应建立统一的基准数据集和透明的评测指标,明确适用范围、误差类型与不确定性表达方式,以降低跨机构使用时的解释偏差。 前景:从解码非编码区迈向精准诊疗 从基础研究看,对非编码区的系统解码将加速理解基因调控网络,推动对复杂疾病的致病机制从"关联"走向"机制解释"。从应用转化看,该模型若能稳定识别关键调控元件与高风险变异,将有望提升基因检测报告的可解释性,缩小"检测发现变异"与"明确临床意义"之间的差距,并为药物靶点筛选、基因治疗路径设计提供线索。随着更多物种与细胞类型数据的积累,模型的训练与泛化能力仍有提升空间。未来研究需在数据质量、可解释性、跨人群适用性以及与实验平台的闭环验证上持续推进,才能将对"暗基因组"的认知转化为可复用的医学与公共健康价值。

随着AlphaGenome等基因解码技术的深入应用,人类对生命密码的认知将进入新阶段。这不仅为攻克遗传性疾病带来希望,更预示着精准医疗时代的加速到来。科学界期待该技术在未来能与其他前沿生物技术形成协同效应,共同推动生命科学研究范式变革。(完)