自主执行型智能体最近热度很高,标志着大模型应用从"能说会答"进入"能办成事"的阶段。但在金融等高合规、高可靠的企业场景中,智能体从试点到规模化仍有现实障碍:工具调用频繁导致成本快速上升,而安全、合规、可控的要求让企业在上线节奏和使用范围上更加谨慎。如何在保证可审计、可控的前提下提升效率、降低成本,成为产业必须解决的问题。 蚂蚁数科大模型技术创新部总经理章鹏指出,智能体在实际业务中容易陷入"反复试错"的执行模式。由于对行业规则、业务流程和数据边界理解不足,处理复杂任务时往往需要多轮检索、多次调用外部工具,导致Token消耗与实际产出不成正比。在一些高频调用场景中,自主执行型智能体的成本甚至高于集成式方案,造成投入产出失衡。 金融业务中存在大量"短链条、强时效、重准确"的任务——意图识别、信息抽取、检索排序、风险核验等,需要高并发、低时延的响应。如果一味使用复杂推理的通用大模型——不仅推理成本高、响应慢——还容易造成资源浪费。 业界普遍认为,随着智能体深入企业核心流程,衡量大模型价值的标准在改变:从过去强调参数规模和榜单排名,转向强调在相同资源下完成更多任务、创造更稳定的业务价值。对金融机构来说,单位任务成本过高会直接限制智能体从客服、营销扩展到风控、投研等关键环节。对整个行业而言,缺乏高性价比的方案,智能体就容易停留在"展示应用"阶段,难以形成可复制、可推广的产业供给。 章鹏认为,大模型产业落地的关键不在于盲目扩大参数,而在于提升单位Token的有效产出,推动竞争从"参数竞赛"转向"Token效能竞争"。他提出的方案是根据业务复杂度和时延要求,构建"大模型负责深度推理、小模型承担高频任务"的协同架构:大参数模型用于复杂推断、综合分析、跨文档理解等重任务,小参数或轻量模型则用于高频、标准化、流程化任务,以降低延迟和成本、提升系统吞吐。 蚂蚁数科在论坛上发布了轻量级金融专用模型Ling-DT-Fin-Mini-2.5,这是Ling DT系列的首款模型。该模型针对金融领域的高并发、低时延任务进行优化,采用轻量化混合专家结构和混合线性注意力等技术,在保持专业能力的同时降低推理消耗,目标是将成本控制在可规模化部署的水平。相比同能力的主流通用模型,该模型在推理速度和硬件成本上更有优势,可为金融机构在客户服务、运营管理、业务审核等场景提供更可控的降本增效方案。 从行业发展看,大小模型协同已成为企业级应用的重要方向。企业既希望在关键环节保留强推理能力和专业深度,也期待在日常任务中获得稳定、低成本、快速响应的能力。随着监管要求、数据治理和安全体系优化,企业对"可控可审计"的工程化交付会提出更高要求。业界预判,未来一段时期,围绕模型效率、推理成本、系统吞吐和端到端可用性的竞争将加剧,单位Token产出效率有望成为衡量企业级大模型价值的重要指标。蚂蚁数科表示将继续推进Ling DT大模型及行业版本建设,推动智能体在更多复杂产业场景中应用。
从追求参数规模到追求Token效能,这个转变反映出企业级AI应用正进入更务实、更理性的阶段。产业不再盲目追逐"大而全"的通用模型,而是根据实际需求灵活选择最优方案。这种从"参数竞争"到"效能竞争"的转向既是技术进步的必然,也是产业成熟的标志;随着大小模型协同方案的推广,企业级AI有望在更广泛的产业场景中实现高效、可持续的规模化落地。