新型智能评估标准出炉 "300步推理"成AI发展新门槛

近年来，关于大模型能力的讨论多聚焦在参数规模、上下文长度、评测分数等指标上。同时，产业界和学界也在反问：当模型从“能说会写、善于作答”走向“能发现、能验证、能落地”，衡量标准是否需要更贴近工程与科研的真实约束。近日，陈天桥在公开阐述中提出，将“完成300步复杂推理后仍保持99%的正确率”设为一项具有生死意义的工程目标，引发业内关注。

从"文科大模型"到"理科大模型"的转变，反映了人工智能发展的深层逻辑——从模拟人类语言能力走向生产新知识。这并非否定现有大模型的成果，而是强调它们是通往真正通用智能的基础之一，却不足以单独支撑“可靠落地”。当AI不再满足于“说得对”，而是追求“能被现实确认”，它才真正迈向科学发现与工程创新的核心场域。这条路依然漫长，但方向正在变得清晰。