2030年搞个1 万亿参数的模型去推理，开销比去年少90%

Gartner估计，到2030年，搞一个参数达到1万亿的AI模型去推理，开销能比去年少90%。咱们把2022年刚冒头的第一代大语言模型和今后四年的模型比一比，你就会发现成本效率这玩意儿翻了100倍。这背后是因为硬件有了改进、模型设计变得更优化了，再加上边缘设备的参与还有专用芯片的应用，这几股力量一起推，大语言模型的推理费用就下来了。不过就算成本降了这么多，企业也别指望直接省钱。你想啊，现在大家伙儿对智能体AI这种前沿玩意儿的需求变多了，这种应用可比生成式AI麻烦多了。它们处理一个任务得消耗大量的Token。Token其实就是AI处理数据的最小单位。Gartner的分析师Will Sommer说了：“没错，Token单价在跌，但这能解放一些低价值的功能。这些功能以后会嵌入到现有的系统里。可这种时候更高价值的应用也来了。不过这种高端应用不会更便宜，反而会更贵。” CIO们得盯住价值这块。哪怕供应商那边的推理成本降下来了，咱们还是得在“少花钱多办事”和搞那些花钱多但酷炫的前沿技术之间找个平衡点。Sommer补充道：“虽然Token单价是在掉，但很多大实验室现在都在亏本经营。他们要是想赚钱，就得把成本压下来，这也是他们让自家模型更高效的一种手段。所以这部分省下的钱并不会全到客户手里。” 因为推理模式更省钱了，那些参数少于1000亿的生成式AI技术跑起来也就变得相对便宜了。那些大科技公司要么把这些成本自己扛下来放进服务里，要么就有开源的竞争者来抢这碗饭。但事情也有另一面。模型变得越复杂越要多花Token，比起老的Token来说成本也越高。比如你想从普通聊天机器人升级到智能体助手，“这不是说助手多查了几次，而是单次查询的Token花费得涨5到30倍那么多。” 要想不被普通产品和开源社区给比下去，CIO就得在“复杂性规模”上多做文章。只有这样才能拿Token花出来的钱换回更多的价值。但这绝对是个平衡活儿。Sommer解释说：“你不能只蹭低价值生成式AI的热度，也不能老盯着最前沿的东西看。如果你不停地往前冲追新东西，Token的开销就会像吹气球一样疯长到你受不了的地步。” Q&A：Q1：大语言模型的推理成本大概会掉多少？答：到2030年搞个1万亿参数的模型去推理会比去年省下超过90%。未来四年里和2022年第一代比起来效率会翻100倍。Q2：企业能直接享受到AI推理省钱的好处吗？答：没法看到直接的好处。虽说单价在跌，但由于智能体AI这类需求多了任务量大Token消耗更多实际上反而更贵了。Q3：CIO该怎么应对这种变化？答：得看价值找平衡。不能只依赖低成本生成式也不能只追前沿技术得在复杂性规模上提升以换来价值才是正事。