中关村论坛热议智能体技术革命：Token需求激增倒逼基础设施升级

问题——智能体加速落地，Token需求与基础设施矛盾凸显。 3月27日，2026中关村论坛年会“AI开源前沿论坛”举行圆桌对话，来自企业与高校的代表围绕开源大模型生态、智能体框架演进和产业基础设施建设等议题交流观点。与会人士普遍认为，智能体依靠任务分解、工具调用与连续推理，正推动大模型从“问答式应用”走向“任务式应用”。随之而来的，是推理侧调用频次和Token消耗快速增长，算力供给、系统效率与资源利用率承受更大压力。原因——推理时代来临，需求结构从“训练驱动”转向“推理驱动”。业内人士分析，过去大模型发展主要由训练规模带动；而智能体兴起后，模型调用呈现“长链条、多轮次、多工具”的特点，一次任务往往包含规划、检索、执行、校验等环节，Token开销明显上升。此外，不同芯片架构、不同集群形态并存，模型部署与调度复杂度增加。传统面向人类工程师的云平台应对高频、碎片化、实时性的推理需求时，容易出现一边资源闲置、一边性能吃紧的情况，供需矛盾因此被放大。影响——资源效率成为“硬约束”，产业竞争重心向基础设施延伸。多位嘉宾认为，Token消耗的快速增长不仅关系企业成本，也会直接影响应用普及速度和创新空间。对上游而言，算力与能耗约束将推动芯片、系统软件、数据中心等环节提升单位能效与吞吐；对中游而言，模型服务与平台需要在延迟稳定、成本可控与并发能力之间取得平衡；对下游而言，若调用成本过高、服务不稳定，智能体在政务、工业、金融、科研等场景的规模化落地将受到影响。业内将其概括为：大模型能力在提升，但“把能力送达每一次调用”的基础设施能力正在成为关键变量。对策——打造高效且智能的Token供给体系，推进软硬件协同与资源整合。围绕如何应对需求激增——有关企业代表提出——应从“单点堆算力”转向“系统性提效率”。一上，通过跨芯片、跨集群的统一调度与适配，增强资源池化能力，更高效地组织异构算力，实现算力与模型的匹配优化；另一方面，通过推理加速、并行策略、缓存与路由等工程手段，降低单位Token的综合消耗，提升吞吐与稳定性。与此同时，业内也认为基础设施形态需要升级：传统云平台更贴近人类开发与运维逻辑，而智能体时代的调用更动态、更自动化。未来基础设施有必要引入更强的自治能力，使系统能够根据负载波动、任务类型与模型特性自动完成资源编排、策略调整与提升，形成“算法—系统—硬件”更紧密的协同闭环。前景——“可持续Token”成为产业长期命题，需统筹能源、算力与应用转化。面向未来一年及更长周期，不少观点将焦点放在“可持续供给”上：在全球能源与算力资源有限的背景下，如何以更低能耗、更高效率提供持续稳定的大规模Token服务，将成为大模型产业长期发展的基础工程。业内建议从全链路推动优化：能源侧提升绿色低碳供给与综合利用水平；算力侧推进高效数据中心与异构计算协同；服务侧提升调度效率与可靠性；应用侧推动智能体进入更多真实场景，形成从技术供给到产业价值的正向循环。与会人士同时认为，开源生态将继续在技术迭代与应用普惠中发挥作用。通过更开放的工具链、更完善的标准与更透明的评测体系，开源有望降低创新门槛，促进模型、框架与基础设施的协同创新，推动智能体应用从示范走向规模化。

从“对话式工具”到“任务型智能体”，产业正在进入以推理为主的新阶段。Token需求的快速增长既反映了技术演进，也考验着基础设施能力、资源配置效率与可持续路径。面向未来，只有把高效供给、智能调度与绿色低碳结合起来，打通从技术创新到产业价值的转化链条，才能让智能体更好地成为高质量发展的新动能。