把Token浪费的问题给彻底杜绝,蚂蚁数科这回给大家带来了一款专给企业用的金融大模型,叫百灵。大家伙儿看到OpenClaw这类能自己动手干活的智能体火起来,就知道AI现在不光是用来聊天了,更是要实实在在去干事儿。企业那边虽然挺积极拥抱新技术,可也很发愁算力不够用,还得顾着安全合规这些事儿。到底怎么让这些智能体真的能在产业里落地生根,成了大家最头疼的事儿。 3月26日那天,中关村论坛上搞了个未来产业创新发展的会。蚂蚁数科大模型技术创新部的总经理章鹏在台上讲,OpenClaw的出现其实是个信号,它把AI在企业里的玩法从单纯比拼模型参数的大小,变成了看谁在单位Token里的效率更高。他说OpenClaw这类智能体现在用得挺多,说明市场确实需要这种能自己干活的家伙。但它在真刀真枪的产业里落地还是有点难,因为它不太懂行业的规矩和业务流程,一碰到复杂任务就老爱反复调工具,结果消耗了好多Token却没啥有效产出。听说在那种高频调用的情况下,OpenClaw花掉的钱能是传统Agent的几十倍甚至上百倍,这玩意儿如果光投入没产出,就很难在产业里做大。 章鹏觉得现在大模型落地已经到了下半场,不能光看谁的参数多,而是要看每花一个Token到底能干成多少事儿。他建议企业结合自己的实际情况挑东西,别一味追着大模型跑。比如金融这个行当天天要处理海量数据——快速看意思、抓关键信息、排排序什么的——这些活儿对速度、响应还有准确度要求都很高。传统的那种推理能力强的大模型来干这种活,那叫一个费劲,像“杀鸡用牛刀”,费钱又费电还慢。他觉得企业真正想要的是那种既专业合规又能省钱、反应还快的解决方案。 他说大模型在复杂推理上强点,小模型在高频小任务上成本低延迟少。所以咱们得把两者结合起来才行。这次论坛上蚂蚁数科就发布了个Ling-DT-Fin-Mini-2.5模型,这是Ling DT系列里头的首款轻量级产品。这个模型是用MoE技术搞出来的混合线性注意力架构做的优化专门为了金融那种高并发、低时延的活量身定制的。既能保证专业深度还能把推理成本给压下来。跟现在市面上同能力的通用模型比起来,它的速度能快100%,跑同样的活儿硬件成本也能省不少。 其实等AI智能体真的开始渗透到产业核心了,这种大小模型结合的做法已经成了趋势。最近OpenAI也推出了两款小模型GPT‑5.4 mini和nano,就是主打低延迟高性价比的子智能体主力用的东西。章鹏说技术发展最后还是得回到效率上来,以后看谁做得好就看谁的Token效能高不高。蚂蚁数科会接着深研企业级AGI这块儿的技术,把百灵企业版的Ling DT大模型还有行业版都推出来,好让智能体在复杂场景里更快地落地。