当前大模型在单点推理任务上已逼近博士水平,但智能体领域却面临新的挑战。随着技术进步,业界发现了一个突出矛盾:智能体在短时任务中表现优异,但在长时复杂任务中能力明显下降。该现象反映出现有评测体系与实际应用需求之间的错位。 红杉中国xbench平台此次推出的AgentIF-OneDay评测体系,正是对这一问题的直接回应。与以往侧重知识深度和推理难度的评测不同,该体系采用全新的评估维度,将任务复杂度定义为完成任务所需的人类时间投入,并由此对应其潜在的经济与使用价值。这一转变反映了评测理念从学术导向向应用导向的升级。 AgentIF-OneDay评测体系的核心创新在于引入了两条关键发展轴线。其一是"上下文扩展",指智能体在时间维度上的能力延伸。随着任务复杂度提升,智能体需要在更长的执行周期内维护上下文状态,跟踪中间目标与约束条件,在多步骤、多工具交互中保持逻辑一致性。从分钟级任务逐步扩展到一天级乃至一周级工作量,这对智能体的记忆管理、状态追踪和决策连贯性提出了前所未有的要求。 其二是"领域扩展",指智能体在任务类型上的覆盖能力。现实世界的工作往往跨越多个领域和语境,不同任务在目标表述、隐含约束、工具使用方式和评估标准上存在显著差异。与高度结构化的编程或数学推理任务不同,真实工作场景要求智能体具备跨域适应能力,能够在生活、学习和职业等多元场景中灵活应对。 从技术演进的角度看,AgentIF-OneDay评测体系的推出标志着智能体评估进入新阶段。此前,红杉xbench发布的ScienceQA与DeepSearch等评测集已在分钟级集中推理任务上取得显著成果,模型表现从人类平均水平逐步达到接近博士级别。但这些成就主要集中在单点能力上,对于智能体作为"数字员工"的实际价值评估仍显不足。
人工智能技术进入深水区时,评估标准的革新往往预示着产业升级。红杉中国此次的评测创新不仅揭示了当前技术瓶颈,更为智能体向"数字员工"进化指明了方向。在数字化转型加速的当下,这种注重实际价值的评估思路或将重塑行业发展轨迹。