大家好,这是齐鲁晚报·齐鲁壹点的魏银科。这个周四晚上,阿里千问大模型前技术负责人林俊旸发了篇文章,没提自己要去哪儿,但是在AI圈里炸了锅。这篇《从“推理式思维”到“智能体式思维”》,简直就是给咱们画了个技术路线图。他在里头说,过去两年我们都走弯路了,以后的重点得改改,不能光琢磨怎么训练模型,得学会训练智能体。 老林在文章里掏心窝子地把千问团队过去踩的坑给扒出来了。他回忆说,2025年初团队想干件大事,就是造个“全能型”大模型,把那种死磕难题的深度思考模式和快速干活的指令模式揉到一块儿。这就好比要求一个员工,既得像专家那样费劲心思解难题,又得像流水线工人那样利索地做重复活儿。 听起来挺美的是吧?结果落地的时候到处碰壁。老林直接点破了关键:这俩模式本来就是打架的。“思考型”的吃的是海量逻辑推演数据的饭,为了搞定数学或者科研上的大难题不惜烧巨资去跑算力,只求个结果准不准;而“指令型”的就是为了企业里那些订单处理、信息提取这些活儿而生的,最在意的就是能不能快还得便宜。你非要把它们硬塞到一块儿一个模型里,那最后肯定是两边都不讨好:想事情的时候磨磨蹭蹭优柔寡断;干起活来又显得笨手笨脚、没什么卵用。 老林更是直言不讳:“推理链拉得越长,模型未必就更聪明。”有时候模型在那堆一大堆推理步骤,搞不好就是在瞎烧钱、糊弄人呢。咱们真正需要的不是那种非黑即白的开关式选择,而是一条平滑的推理光谱,让模型能根据任务场景自己调整该往深了想还是浅了想。 跳出这个误区后,AI行业下一步到底往哪儿走?老林给了个答案:智能体式思维。说白了,以前那种推理式思维下的AI就像个被困在小黑屋里的做题家,接了任务就在内部瞎转悠不出来;现在这智能体式思维就是要把AI彻底扔进真实世界里去,别光闷着头想了,多去动手干实事。 他举了个特别生动的例子:成熟的智能体就像一位装修工长。工长不光得懂装修知识(这就是模型的能力),还得学会怎么制定计划、顺手调用各种工具(比如搜索引擎、代码解释器)、盯着周围环境的反应随时调整方案。这一变天儿直接把行业核心矛盾给换了个样子——从“模型能不能长时间思考”,变成了“模型能不能以一种能落地干活的方式去思考”。 这对底层技术的要求可就高了去了。以前搞大模型主要靠GPU堆算力跑数据就行;现在搞智能体得搭一整套系统的支撑体系——老林给它起了个名字叫“Harness Engineering”,也就是系统编排工程。这可不是简单的工具乱搭一气,它得把工具服务器、浏览器、执行沙箱、API接口层这些环节全都串起来。 老林特别强调说,“环境设计”会成为智能体时代最值钱的宝贝。比如说你想让AI学写代码,就得给它弄个能实时运行、能报错、还能调试的标准化测试环境。环境越像真的、越稳定,AI学得越快、也越能落地干活。 云厂商这回是稳赢了吗?确实是利好消息。因为智能体想要动起来需要大量的算力、服务器还有API接口还有复杂的训练环境,这些刚好是云厂商的长项。以后拼的就是谁家能把这套生态建得更完善、调用工具的能力更强。云厂商手里有现成的资源储备,自然能抢先一步把底层的支持搭起来掌握主动权。 那对那些手头没多少资金和算力的创业公司咋办?老林也给指了条明路:去搞中间件和Agent编排层的活儿。现在的通用大模型已经越来越像“水电煤”这种公共基础设施了,光靠堆参数做大模型这块的红利基本吃完了。以后的AI系统不是靠单个模型单打独斗了,而是多个智能体一起协同作战。 这就给搞系统编排工程的创业公司带来了大机会——大家可以专注于开发那些负责规划任务、分发指令、协调多个智能体工作的“中间件”。 另外老林还提到了一个隐藏的赛道:防作弊和评估体系。随着智能体开始大规模调用外部工具作弊的问题就出来了。比如一个带搜索功能的模型在训练的时候可能直接去搜索答案来作弊,根本没学会真正的解题办法。所以设计出一套不容易被作弊的训练环境和评估器就成了创业公司新的突破点。 从“推理”转向“智能体”,这不仅是技术上的变更是商业逻辑的彻底重构啊!大模型的下半场不再是实验室里的独角戏了,而是一场关于基础设施、生态还有交付能力的综合大考。模型再好也是种子,但得有肥沃的土壤和精心的耕耘才能长出改变世界的参天大树!