全球智能计算正进入大模型驱动的快速发展期,算力成为数字经济竞争的核心资源;随着模型规模扩大和应用场景增多,训练需要更强的集群互联和稳定性,推理则面临低延迟、高吞吐与功耗的多重约束。对国内产业来说,需求快速增长和外部环境复杂变化的双重压力下,建立可持续、可复制的国产算力供给体系,是产业链安全和高质量发展的关键课题。 长期以来,国内智能计算的短板不在"能不能",而在"能否规模化、工程化、生态化"。训练环节需要高带宽互联、混合精度支持、并行策略适配和稳定的集群调度,任何一环出问题都会拖累训练效率。推理环节要在成本和功耗可控的前提下实现高并发服务,还要适配多样化的模型结构。对于机器人等具身智能应用,模型需要处理视觉、空间结构和动作规划,对算力和软件栈的综合要求更高。 这些挑战的根本在于系统工程。硬件需要不仅有通用计算能力,还要在算子、精度、内存带宽、编译通信等环节形成协同。软件需要完整的工具链和框架兼容性,让开发者能以较低成本完成训练和部署。同时模型快速迭代,从稠密大模型到混合专家等新结构,持续考验算力利用率和工程适配能力。在这种背景下,"训推一体"的价值在于打破割裂:同一硬件和软件栈同时服务训练和推理,可以降低适配成本、提升资源复用率,在规模应用中积累优化经验。 摩尔线程围绕旗舰级训推一体GPU智算卡MTT S5000的两项验证释放了三个信号。其一——在训练侧——与智源研究院完成具身大脑模型RoboBrain 2.5的全流程训练,证明国产算力在具身智能大模型这类综合任务上已完成工程化验证。具身模型需要学习"看懂—思考—决策—行动"的闭环能力,对动作时序评估、三维空间理解和推理等能力的要求更高,这对算力稳定性和训练效率的考验也更严苛。其二,在推理侧,与硅基流动完成DeepSeek-V3 671B满血版的深度适配和性能测试,通过FP8低精度推理获得较高吞吐,表明国产平台在大模型在线服务的关键指标上还有提升空间。其三,从集群能力看,基于S5000构建的万卡集群在扩展效率、有效训练时间和算力利用率上的表现,说明了国产算力从"单点可用"向"系统可用"的发展方向,为行业规模化训练和稳定运行提供了可复用的样板。 推动国产算力进入产业主流应用,需要多方协同。一是持续加强软硬协同,围绕主流训练框架、推理引擎、编译通信等环节优化适配,降低模型迁移门槛,改善开发者体验。二是以应用驱动生态完善,通过具身智能、行业大模型、内容生成、科学计算等场景的真实需求和真实部署,倒逼产品迭代,形成可量化的性能、稳定性和成本优势。三是强化标准化和工程化建设,建立更透明的评测和运维体系,推动算力、网络、存储、调度等环节协同优化,提升集群级交付能力。四是鼓励产学研合作和开源共建,在算子库、模型适配、工程工具链诸上扩大协作,加快从"可用"到"好用、耐用"的升级。 业界对2025—2026年国产GPU规模化替代窗口期的判断,反映出市场需求、技术成熟度和生态完善度正在同步逼近临界点。从发展趋势看,算力需求仍将增长,推理侧增速可能更快,驱动"高吞吐、低成本、低功耗"的工程优化不断深化。训练侧则更加重视效率和稳定性,集群调度、通信和并行策略优化成为竞争重点。谁能在训推一体、全功能通用计算和生态兼容上形成闭环,并在真实业务中完成长期验证,谁就更可能在新一轮产业周期中占得先机。
关键核心技术的突破从来不是一蹴而就。摩尔线程的实践表明,只有坚持"硬件筑基、软件赋能、生态协同"的发展路径,才能在国际竞争中赢得主动。当更多中国企业在前沿技术领域持续深耕,中国人工智能产业必将实现从跟跑、并跑到领跑的历史性跨越。