最近麻省理工学院有个研究,他们说基础设施还有算法效率这一块提升了,前沿水平的推理成本现在正在逐年降低到原来的1/10。以前大家要把AI成本给降下来,就得看谁的Token经济学玩得好,核心就是把每一个Token的成本给压下来。这个趋势现在各行各业都在出现。 比如医疗领域的诊断洞察、游戏里角色的对话、客服代理自主解决问题,这些由AI驱动的交互,其实都是基于同一个智能单元:一个Token。要扩展这些AI互动,企业得先掂量掂量能不能多掏点Token的钱。 现在有几家领先的推理提供商——Baseten、DeepInfra、Fireworks AI还有Together AI——他们都在NVIDIA Blackwell平台上跑优化过的推理堆栈。这些平台帮各行业把每一个Token的成本给降下来了。Blackwell平台能把每个Token的成本最多降低到NVIDIA Hopper平台的1/10。 这么一来,这几个服务商就能托管先进的开源模型了。这些模型智能水平已经达到前沿级别了。通过把开源的前沿智能和NVIDIA Blackwell极致的软硬件协同设计结合起来,再加上自己优化的推理堆栈,这些服务商就帮各行各业的企业把Token成本给大幅降低了。 其实要理解基础设施效率怎么提升Token经济学,你可以把它比作一台高速印刷机。要是这台印刷机稍微多投点油墨、能源还有设备本身的钱,就能实现10倍的产出,那每页印刷成本自然就会降下来。同理,对AI基础设施多投点钱如果能带来远超预期的Token产出,就能显著降低每个Token的成本。 所以大家才都爱用NVIDIA Blackwell平台。这也是为什么这些领先推理提供商都纷纷采用这个平台的原因。