问题:从"大模型能不能训得更大",转到"能不能用得更广、更便宜" 过去数年,业界对算力的讨论多围绕训练环节展开:更大的参数规模、更长的训练周期、更高的集群投入被视作领先的关键。但在应用侧,真正决定企业成本结构的往往不是一次性的训练投入,而是长期、海量且高频的推理调用。推理成本居高不下,限制了大模型在客服、办公、工业质检、内容生产、边缘终端等场景的规模化落地。 原因:成本模型决定产业扩张速度,推理成为"日常支出" 业内普遍将训练比作"研发投入",推理更像"运营费用"。随着大模型进入产品化阶段,推理调用量呈倍数增长,费用压力随之凸显。英伟达围绕Rubin平台强调"推理成本降低至十分之一",实质是改变应用侧的经济账:在同等业务量下,运营成本显著下降;在同等预算下,服务能力可成倍扩张。同时,英伟达还提出在部分混合专家架构下,以更少的GPU资源实现接近效果的路径,继续降低部署门槛。 影响:应用扩张、商业模式与产业分工可能被重塑 一是应用端门槛下移。推理成本下降意味着企业更敢于把大模型嵌入核心流程,面向中小企业与长尾行业的"可用、能用、常用"将成为可能,市场容量随之扩大。 二是基础设施利用方式变化。若推理更便宜、吞吐更高,数据中心将更强调持续运行与资源调度效率,算力从"以训练为峰值"转向"以推理为常态"。 三是产品形态加速演进。英伟达将GTC 2026主题指向"Agentic"方向,强调从"问答工具"走向"任务执行者":用户给出目标与约束条件,系统可自动拆解任务、调用工具并完成交付。此类产品对推理效率与成本更为敏感,降本将成为规模化的前提。 四是产业竞争格局再平衡。推理成本显著下降可能带来推理需求爆发式增长,进一步推高对GPU时长与平台生态的依赖,软硬件协同与开发者生态的重要性将上升。 对策:在外部不确定性下,中国更需把握推理侧窗口期 围绕高端算力的出口管制仍是影响变量。市场普遍预期Rubin平台的先进产品对华供应面临较大不确定性。对中国而言,短期压力主要在于高端GPU供给受限、先进制程与生态工具链差距仍需弥合、训练与推理成本可能抬升。 但推理侧更强调系统工程能力与场景深耕,具备"换道超车"的现实空间。一是加快推理芯片与算子优化、编译器与框架适配,形成面向国产硬件的高效软件栈;二是把重点放在行业应用与数据闭环,通过场景牵引提升模型与系统的综合效率;三是推进边缘侧部署与端侧协同,减少对超大规模集中式算力的单一依赖;四是构建开放生态与标准接口,提升软硬件互操作性与迁移效率,降低产业链整体成本。 前景:推理降本或成为下一阶段普及的关键变量 Rubin平台释放的信号表明,全球人工智能产业正从"拼训练规模"走向"拼推理效率、拼落地能力"。在成本曲线下移的驱动下,更多应用将进入"可规模化交付"的窗口期。未来竞争不仅是芯片性能参数的比拼,更是软硬件协同、数据与场景、工程化能力与生态组织力的综合较量。对企业而言,能否把推理成本优势转化为产品体验与交付效率,将决定能否在新周期中占据先机。
推理成本的大幅下降标志着AI产业进入新的发展阶段。从"训练为王"到"推理为王"的转变,反映的是产业从技术探索向应用落地的深化;便宜正在成为推动AI普及的最大变量。当AI不再是少数人的专属工具,而是多数人都能使用的基础设施时,整个社会的生产方式和生活方式都将面临深刻改变。谁能更好地把握推理效率优化、应用生态的建设和成本控制的平衡,谁就能在下一个十年的竞争中占据主动。