问题——智能体应用升温,Token需求出现跃升。论坛现场,多位嘉宾表示,随着以智能体为代表的新形态应用加快落地,模型正从“回答问题”转向“完成任务”。推理过程中的交互轮次、上下文长度和多步骤规划明显增加,直接带动Token消耗上行。产业一线数据显示,自今年1月底以来,部分平台Token日均调用量频繁翻番,累计增幅达到数量级,基础设施压力随之加大。 原因——任务型推理走向主流,叠加多场景并发与成本约束。与会人士认为,Token需求激增并非单一因素造成:一是智能体通常需要“分解任务—检索信息—调用工具—验证结果—生成交付”的链式推理流程,上下文更长、调用轮次更多;二是行业重心正从训练逐步转向“推理驱动”,线服务的时延、稳定性与单位成本成为关键指标;三是应用从小范围试点走向规模部署,办公、内容、客服、研发等高频场景并发,使算力供给、调度体系与工程效率上的短板更容易暴露。业内普遍认为,单纯堆叠硬件难以跟上需求曲线,系统级效率与资源协同将成为决定性因素。 影响——算力利用率、服务稳定性与产业可持续性承压。嘉宾指出,Token需求骤增首先冲击集群的综合效率:在多芯片、多集群环境下,算力碎片化、跨集群调度不均、模型部署与推理链路优化不足,容易出现“算力在,但用不起来”的结构性问题。其次,服务层面峰值负载上升可能带来排队和时延波动,影响下游行业场景的可用性与体验。再次,成本与能耗约束更为突出:若单位Token成本难以下降,商业化落地将受到限制,行业也将面临“高增长与高消耗并存”的可持续压力。与会者强调,基础设施不仅要支持技术迭代,更要支撑规模化应用的长期运营。 对策——以系统工程提升端到端效率,构建稳定的规模化Token供给能力。面向推理时代基础设施演进,与会嘉宾提出多项方向:其一,推进软硬协同优化,通过编译、推理框架、算子与调度体系的系统性改造,把算力更有效地转化为可交付的Token产能;其二,强化资源整合与异构适配,打通多类型芯片与多算力集群,提升跨平台部署效率与资源利用率,缓解供需错配;其三,建设面向大规模调用的“Token工厂”能力,重点提升吞吐、稳定性与弹性扩展,在高并发场景下提供可预测的服务质量;其四,从产业生态出发打通全链路效率,推动“能源—算力—Token—应用价值”的闭环优化,以成本、能效与产出指标评估基础设施成效,形成更可持续的增长模式。与会者普遍认为,基础设施提供方的核心任务,是以持续稳定的大规模服务能力,支撑顶尖模型在海量场景中长期运行。 前景——从“模型竞赛”转向“基础设施与应用协同竞速”。与会嘉宾判断,未来一段时期,产业竞争将更多体现在推理效率、工程化能力和生态协同上:一上,智能体带来的交互与任务复杂度仍会提升,Token需求可能继续快速增长;另一方面,随着系统优化、调度体系升级与软硬一体化推进,单位Token成本有望下降,服务能力将从“能用”走向“好用、耐用”。同时,开源生态扩展将加速工具链、框架与标准化接口成熟,推动模型能力向制造、医疗、教育、政务与消费等领域渗透。业内人士认为,关键在于把基础设施能力转化为更普惠、低门槛的生产力工具,让更多主体以合理成本使用智能能力,形成规模化应用牵引的正向循环。
智能体带来的不仅是产品形态的变化,更是对基础设施体系的一次压力测试。当Token需求成倍增长时,比拼的不只是单点技术突破,而是从能源、算力到系统软件再到服务运营的系统化能力。只有让资源更高效、更可持续地转化为稳定的智能供给,技术红利才能更快转化为产业动能与社会价值。