问题——智能体加速落地,Token需求与基础设施矛盾凸显。 3月27日,2026中关村论坛年会“AI开源前沿论坛”举行圆桌对话,来自企业与高校的代表围绕开源大模型生态、智能体框架演进和产业基础设施建设等议题交流观点。与会人士普遍认为,智能体依靠任务分解、工具调用与连续推理,正推动大模型从“问答式应用”走向“任务式应用”。随之而来的,是推理侧调用频次和Token消耗快速增长,算力供给、系统效率与资源利用率承受更大压力。 原因——推理时代来临,需求结构从“训练驱动”转向“推理驱动”。 业内人士分析,过去大模型发展主要由训练规模带动;而智能体兴起后,模型调用呈现“长链条、多轮次、多工具”的特点,一次任务往往包含规划、检索、执行、校验等环节,Token开销明显上升。此外,不同芯片架构、不同集群形态并存,模型部署与调度复杂度增加。传统面向人类工程师的云平台应对高频、碎片化、实时性的推理需求时,容易出现一边资源闲置、一边性能吃紧的情况,供需矛盾因此被放大。 影响——资源效率成为“硬约束”,产业竞争重心向基础设施延伸。 多位嘉宾认为,Token消耗的快速增长不仅关系企业成本,也会直接影响应用普及速度和创新空间。对上游而言,算力与能耗约束将推动芯片、系统软件、数据中心等环节提升单位能效与吞吐;对中游而言,模型服务与平台需要在延迟稳定、成本可控与并发能力之间取得平衡;对下游而言,若调用成本过高、服务不稳定,智能体在政务、工业、金融、科研等场景的规模化落地将受到影响。业内将其概括为:大模型能力在提升,但“把能力送达每一次调用”的基础设施能力正在成为关键变量。 对策——打造高效且智能的Token供给体系,推进软硬件协同与资源整合。 围绕如何应对需求激增——有关企业代表提出——应从“单点堆算力”转向“系统性提效率”。一上,通过跨芯片、跨集群的统一调度与适配,增强资源池化能力,更高效地组织异构算力,实现算力与模型的匹配优化;另一方面,通过推理加速、并行策略、缓存与路由等工程手段,降低单位Token的综合消耗,提升吞吐与稳定性。 与此同时,业内也认为基础设施形态需要升级:传统云平台更贴近人类开发与运维逻辑,而智能体时代的调用更动态、更自动化。未来基础设施有必要引入更强的自治能力,使系统能够根据负载波动、任务类型与模型特性自动完成资源编排、策略调整与提升,形成“算法—系统—硬件”更紧密的协同闭环。 前景——“可持续Token”成为产业长期命题,需统筹能源、算力与应用转化。 面向未来一年及更长周期,不少观点将焦点放在“可持续供给”上:在全球能源与算力资源有限的背景下,如何以更低能耗、更高效率提供持续稳定的大规模Token服务,将成为大模型产业长期发展的基础工程。业内建议从全链路推动优化:能源侧提升绿色低碳供给与综合利用水平;算力侧推进高效数据中心与异构计算协同;服务侧提升调度效率与可靠性;应用侧推动智能体进入更多真实场景,形成从技术供给到产业价值的正向循环。 与会人士同时认为,开源生态将继续在技术迭代与应用普惠中发挥作用。通过更开放的工具链、更完善的标准与更透明的评测体系,开源有望降低创新门槛,促进模型、框架与基础设施的协同创新,推动智能体应用从示范走向规模化。
从“对话式工具”到“任务型智能体”,产业正在进入以推理为主的新阶段。Token需求的快速增长既反映了技术演进,也考验着基础设施能力、资源配置效率与可持续路径。面向未来,只有把高效供给、智能调度与绿色低碳结合起来,打通从技术创新到产业价值的转化链条,才能让智能体更好地成为高质量发展的新动能。