国产GPU突破训推一体瓶颈摩尔线程在具身智能和大模型推理领域取得重要进展

全球智能计算正进入大模型驱动的快速发展期，算力成为数字经济竞争的核心资源；随着模型规模扩大和应用场景增多，训练需要更强的集群互联和稳定性，推理则面临低延迟、高吞吐与功耗的多重约束。对国内产业来说，需求快速增长和外部环境复杂变化的双重压力下，建立可持续、可复制的国产算力供给体系，是产业链安全和高质量发展的关键课题。长期以来，国内智能计算的短板不在"能不能"，而在"能否规模化、工程化、生态化"。训练环节需要高带宽互联、混合精度支持、并行策略适配和稳定的集群调度，任何一环出问题都会拖累训练效率。推理环节要在成本和功耗可控的前提下实现高并发服务，还要适配多样化的模型结构。对于机器人等具身智能应用，模型需要处理视觉、空间结构和动作规划，对算力和软件栈的综合要求更高。这些挑战的根本在于系统工程。硬件需要不仅有通用计算能力，还要在算子、精度、内存带宽、编译通信等环节形成协同。软件需要完整的工具链和框架兼容性，让开发者能以较低成本完成训练和部署。同时模型快速迭代，从稠密大模型到混合专家等新结构，持续考验算力利用率和工程适配能力。在这种背景下，"训推一体"的价值在于打破割裂：同一硬件和软件栈同时服务训练和推理，可以降低适配成本、提升资源复用率，在规模应用中积累优化经验。摩尔线程围绕旗舰级训推一体GPU智算卡MTT S5000的两项验证释放了三个信号。其一——在训练侧——与智源研究院完成具身大脑模型RoboBrain 2.5的全流程训练，证明国产算力在具身智能大模型这类综合任务上已完成工程化验证。具身模型需要学习"看懂—思考—决策—行动"的闭环能力，对动作时序评估、三维空间理解和推理等能力的要求更高，这对算力稳定性和训练效率的考验也更严苛。其二，在推理侧，与硅基流动完成DeepSeek-V3 671B满血版的深度适配和性能测试，通过FP8低精度推理获得较高吞吐，表明国产平台在大模型在线服务的关键指标上还有提升空间。其三，从集群能力看，基于S5000构建的万卡集群在扩展效率、有效训练时间和算力利用率上的表现，说明了国产算力从"单点可用"向"系统可用"的发展方向，为行业规模化训练和稳定运行提供了可复用的样板。推动国产算力进入产业主流应用，需要多方协同。一是持续加强软硬协同，围绕主流训练框架、推理引擎、编译通信等环节优化适配，降低模型迁移门槛，改善开发者体验。二是以应用驱动生态完善，通过具身智能、行业大模型、内容生成、科学计算等场景的真实需求和真实部署，倒逼产品迭代，形成可量化的性能、稳定性和成本优势。三是强化标准化和工程化建设，建立更透明的评测和运维体系，推动算力、网络、存储、调度等环节协同优化，提升集群级交付能力。四是鼓励产学研合作和开源共建，在算子库、模型适配、工程工具链诸上扩大协作，加快从"可用"到"好用、耐用"的升级。业界对2025—2026年国产GPU规模化替代窗口期的判断，反映出市场需求、技术成熟度和生态完善度正在同步逼近临界点。从发展趋势看，算力需求仍将增长，推理侧增速可能更快，驱动"高吞吐、低成本、低功耗"的工程优化不断深化。训练侧则更加重视效率和稳定性，集群调度、通信和并行策略优化成为竞争重点。谁能在训推一体、全功能通用计算和生态兼容上形成闭环，并在真实业务中完成长期验证，谁就更可能在新一轮产业周期中占得先机。

关键核心技术的突破从来不是一蹴而就。摩尔线程的实践表明，只有坚持"硬件筑基、软件赋能、生态协同"的发展路径，才能在国际竞争中赢得主动。当更多中国企业在前沿技术领域持续深耕，中国人工智能产业必将实现从跟跑、并跑到领跑的历史性跨越。

国产GPU突破训推一体瓶颈 摩尔线程在具身智能和大模型推理领域取得重要进展

国产GPU突破训推一体瓶颈摩尔线程在具身智能和大模型推理领域取得重要进展