新型智能评估标准出炉 "300步推理"成AI发展新门槛

近年来,关于大模型能力的讨论多聚焦在参数规模、上下文长度、评测分数等指标上。同时,产业界和学界也在反问:当模型从“能说会写、善于作答”走向“能发现、能验证、能落地”,衡量标准是否需要更贴近工程与科研的真实约束。近日,陈天桥在公开阐述中提出,将“完成300步复杂推理后仍保持99%的正确率”设为一项具有生死意义的工程目标,引发业内关注。

从"文科大模型"到"理科大模型"的转变,反映了人工智能发展的深层逻辑——从模拟人类语言能力走向生产新知识。这并非否定现有大模型的成果,而是强调它们是通往真正通用智能的基础之一,却不足以单独支撑“可靠落地”。当AI不再满足于“说得对”,而是追求“能被现实确认”,它才真正迈向科学发现与工程创新的核心场域。这条路依然漫长,但方向正在变得清晰。