人工智能要想真正学会即时学习，腾讯混元团队这次放出了一个超级猛的大招。在大语言模型解题能力越来越强，

人工智能要想真正学会即时学习，腾讯混元团队这次放出了一个超级猛的大招。在大语言模型解题能力越来越强，甚至能考过不少专业资格考试的现在，大家忽略了一个大问题：它们处理实时动态信息的本事，跟人差得太远了。腾讯混元团队联合复旦大学做的这项研究，就专门给这个致命短板来了个彻底诊断。研究显示，人类平时在搞开发、玩游戏或者做科学实验时，都得一边学一边干，得不停地从新环境里捞干货。可现在的模型呢，基本就是靠以前练出来的那点老底，像个塞满历史数据的题库，根本不会主动适应新情况。为了看看到底差在哪儿，腾讯团队把全球首个专门测“即时学习”的标准——CL-bench给造出来了。这个基准里有500个复杂的场景、1899项任务，还有超过3.1万项验证标准，强制让模型只能靠上下文里的新信息去完成任务。结果让人吓一跳：最厉害的模型也只做对了23.7%，特别是在那种需要自己从数据里找规律的“经验发现与模拟”任务里，简直就是一塌糊涂。这个基准把现实任务分成了四大类：领域知识推理、规则应用、程序执行和经验发现。这就好比把人在法律金融、技术标准、操作流程和科学探索里干的活都给模拟了一遍。团队发现，模型在靠逻辑演绎的地方还行，但在要总结规律的归纳任务上完全没辙，这直接卡住了人工智能在科研、设计还有应急响应这些地方的去路。这项研究是腾讯首席AI科学家姚顺雨团队接手腾讯后的首个公开成果。他们还借着这个机会让腾讯混元技术博客首次露面，算是在透明度和共享这块儿又往前走了一步。研究团队强调，现在那种光靠猜下一个词的训练方式让模型太擅长死记硬背了，得逼着它们从“背公式的机器”变成“学语境的高手”。只有把算法和训练方式都改改，才能给机器真正的环境适应能力。专家说这研究正好戳中了人工智能从实验室到场景落地的命门。以后医疗、自动驾驶还有工业调控这些地方都得靠机器实时反应，如果学不会即时学习，它们就会变得一点用都没有。CL-bench现在给大家提供了一把量化的尺子，能帮大家一起把这块硬骨头啃下来。现在的AI正从拼内存大小的时代转向练本事的时代。腾讯混元团队不光指出了路走不通的地方，还通过这套严格的测试指了条明路。在智能化席卷全球的今天，让机器学会“在航行中造船”，这可能就成了下一轮技术大战里的战略高地。