人工智能要想真正学会即时学习,腾讯混元团队这次放出了一个超级猛的大招。在大语言模型解题能力越来越强,甚至能考过不少专业资格考试的现在,大家忽略了一个大问题:它们处理实时动态信息的本事,跟人差得太远了。腾讯混元团队联合复旦大学做的这项研究,就专门给这个致命短板来了个彻底诊断。研究显示,人类平时在搞开发、玩游戏或者做科学实验时,都得一边学一边干,得不停地从新环境里捞干货。可现在的模型呢,基本就是靠以前练出来的那点老底,像个塞满历史数据的题库,根本不会主动适应新情况。 为了看看到底差在哪儿,腾讯团队把全球首个专门测“即时学习”的标准——CL-bench给造出来了。这个基准里有500个复杂的场景、1899项任务,还有超过3.1万项验证标准,强制让模型只能靠上下文里的新信息去完成任务。结果让人吓一跳:最厉害的模型也只做对了23.7%,特别是在那种需要自己从数据里找规律的“经验发现与模拟”任务里,简直就是一塌糊涂。 这个基准把现实任务分成了四大类:领域知识推理、规则应用、程序执行和经验发现。这就好比把人在法律金融、技术标准、操作流程和科学探索里干的活都给模拟了一遍。团队发现,模型在靠逻辑演绎的地方还行,但在要总结规律的归纳任务上完全没辙,这直接卡住了人工智能在科研、设计还有应急响应这些地方的去路。 这项研究是腾讯首席AI科学家姚顺雨团队接手腾讯后的首个公开成果。他们还借着这个机会让腾讯混元技术博客首次露面,算是在透明度和共享这块儿又往前走了一步。研究团队强调,现在那种光靠猜下一个词的训练方式让模型太擅长死记硬背了,得逼着它们从“背公式的机器”变成“学语境的高手”。只有把算法和训练方式都改改,才能给机器真正的环境适应能力。 专家说这研究正好戳中了人工智能从实验室到场景落地的命门。以后医疗、自动驾驶还有工业调控这些地方都得靠机器实时反应,如果学不会即时学习,它们就会变得一点用都没有。CL-bench现在给大家提供了一把量化的尺子,能帮大家一起把这块硬骨头啃下来。 现在的AI正从拼内存大小的时代转向练本事的时代。腾讯混元团队不光指出了路走不通的地方,还通过这套严格的测试指了条明路。在智能化席卷全球的今天,让机器学会“在航行中造船”,这可能就成了下一轮技术大战里的战略高地。