业界刚搞出一个新说法,觉得人工智能以后要想变得通用,最关键的门槛得看长链复杂推理。现在技术迭代飞快,用的地方也越来越多,大家都在琢磨怎么科学地评估这技术,还得把它往更深更靠谱的方向推。最近盛大集团的陈天桥也发话了,他讲的关于通用人工智能(AGI)工程能力的新标准,挺有启发的。他的核心意思就是,看能不能在长达300步的复杂逻辑推理里,一直保持超过99%的正确率。设立这个标准不是为了瞎追参数,而是真看透了现实问题的本质。像新药研发、新材料发现这些关乎人类长远的大事,解决起来变量多、因果链长、还不确定,就是典型的“开放域复杂问题”。 陈天桥用数学模型证明过,就算单步准确率高达98%,只要推个300步,因为误差叠加,成功率就会掉到接近零。这其实是在告诉咱们,现在主流的大模型那种“一次性生成”的概率预测模式,根本啃不下这种长程精准推理的硬骨头。为了破这个局,他觉得研发范式得变一变。别老是弄那种光会模仿语言的“文科大模型”了,得转去造那种能假设检验、发现新知识的“理科大模型”。“文科大模型”擅长模拟,适合在规则明确的封闭系统里写作文、答题;“理科大模型”的价值是发现,得在充满噪声的数据缺失里建立可靠因果链条。 要想跳转到“理科大模型”,就得从底层架构上改。陈天桥说的方法挺系统,把推理过程分成“逻辑生成层”和“工具检验层”。生成层负责把大问题拆成最小逻辑单元;检验层用仿真和工具实时验证每一步。这要求系统要有长期记忆、自我优化能力,还得能和传统工具设备融合。这绝对不是简单调算法了,而是个大工程。好在现在有实践苗头了。比如MiroMind团队做的BrowseComp系统,用类似Agent和环境持续交互纠错的架构,只用了2350亿参数的中等模型,就把一些复杂任务干得比那些参数更大但只靠一次生成的模型还要好。 这说明只要强化推理的可靠性和闭环验证,就能更快更稳地通往通用智能。这个理念对产业很有指引作用。未来拼的可能不是参数多少或数据规模了,而是看你能不能搭出一整套保证每一步都能验证的工具链和生态。科研机构和企业以后要争的是设计综合性解决方案的能力,不光会用“提示工程”让人的模型开窍。 以前大家可能觉得只要对答如流就够了,现在要的是那种“算无遗策”的推理智能。陈天桥的这个300步标尺其实就是一面镜子,照出了咱们现在的技术和真正解决人类难题所需智能的差距。它是在催着咱们从思想到实践都得变一变:别光想着模仿人长什么样了,要去建那种做事靠谱、能在开放世界里独立干活还产出真知识的系统。这条通往“理科大模型”的路肯定不好走,但它是人工智能助力科学研究、工程创新的最正确方向。这场关于AGI发展路径的深度思考,肯定会给全球人工智能的健康发展带来新动力和坐标。