腾讯混元团队与复旦大学联合发布cl-bench 基准测试

最近做的研究发现，那些大模型在考试上表现特别好，但是到了现实世界的动态场景里，它们的学习和适应能力还是很弱。这其实跟它们的训练方式有关系。腾讯混元团队跟复旦大学合作做了这个研究，他们建立了一个叫CL-bench的基准测试，用来给大语言模型打分。这个基准测试有500个复杂情境、1900多个任务还有超过3.1万个验证点，涵盖了四类常见的情境学习场景。给大模型做了这个测试后发现，它们整体任务完成率不到24%。这就说明，虽然它们在静态知识问答上很厉害，但是在动态情境学习上还是不够好。这个研究给我们指出了一个方向，就是要让模型具备从即时情境中快速学习和应用新知识的能力。现在的模型主要是靠预训练阶段固化在参数里的静态知识来工作，而不是从当前输入的新信息中进行实时学习。人类很多高级智能活动，比如快速掌握新工具使用方法、在陌生规则系统中进行决策、从实验数据中归纳新规律等，都需要这样的能力。所以让模型具备“情境学习”能力是推动人工智能从“做题家”变成“实干者”的关键跨越。腾讯混元团队和复旦大学联合发布的这个研究还有CL-bench基准就像是一面镜子，既反映了当前大模型在情境学习能力上的短板，也给未来的技术演进树立了目标。姚顺雨团队把这个研究成果以技术博客形式公开发布了。这也标志着腾讯混元技术博客正式启航了。腾讯混元团队跟复旦大学姚顺雨一起打造了CL-bench这个基准测试，它提供了一个系统化、高难度的标尺来评估模型情境学习能力。未来模型训练和优化需要重点攻关减少对庞大静态参数过度依赖，增强从即时交互和信息流中主动学习和快速适应的机制。推动人工智能从“记忆者”到“学习者”的转变是技术攻坚的必然路径，也是它深度融入各行各业解决实际复杂问题的关键前提。这个研究为这次变革提供了评估工具和理论洞见，预计会引发业界对模型能力评价体系和发展路径的进一步思考与探索。