红杉xbench推出AgentIF-OneDay评测体系聚焦长时复杂任务能力

当前大模型在单点推理任务上已逼近博士水平，但智能体领域却面临新的挑战。随着技术进步，业界发现了一个突出矛盾：智能体在短时任务中表现优异，但在长时复杂任务中能力明显下降。该现象反映出现有评测体系与实际应用需求之间的错位。红杉中国xbench平台此次推出的AgentIF-OneDay评测体系，正是对这一问题的直接回应。与以往侧重知识深度和推理难度的评测不同，该体系采用全新的评估维度，将任务复杂度定义为完成任务所需的人类时间投入，并由此对应其潜在的经济与使用价值。这一转变反映了评测理念从学术导向向应用导向的升级。 AgentIF-OneDay评测体系的核心创新在于引入了两条关键发展轴线。其一是"上下文扩展"，指智能体在时间维度上的能力延伸。随着任务复杂度提升，智能体需要在更长的执行周期内维护上下文状态，跟踪中间目标与约束条件，在多步骤、多工具交互中保持逻辑一致性。从分钟级任务逐步扩展到一天级乃至一周级工作量，这对智能体的记忆管理、状态追踪和决策连贯性提出了前所未有的要求。其二是"领域扩展"，指智能体在任务类型上的覆盖能力。现实世界的工作往往跨越多个领域和语境，不同任务在目标表述、隐含约束、工具使用方式和评估标准上存在显著差异。与高度结构化的编程或数学推理任务不同，真实工作场景要求智能体具备跨域适应能力，能够在生活、学习和职业等多元场景中灵活应对。从技术演进的角度看，AgentIF-OneDay评测体系的推出标志着智能体评估进入新阶段。此前，红杉xbench发布的ScienceQA与DeepSearch等评测集已在分钟级集中推理任务上取得显著成果，模型表现从人类平均水平逐步达到接近博士级别。但这些成就主要集中在单点能力上，对于智能体作为"数字员工"的实际价值评估仍显不足。

人工智能技术进入深水区时，评估标准的革新往往预示着产业升级。红杉中国此次的评测创新不仅揭示了当前技术瓶颈，更为智能体向"数字员工"进化指明了方向。在数字化转型加速的当下，这种注重实际价值的评估思路或将重塑行业发展轨迹。

红杉xbench推出AgentIF-OneDay评测体系 聚焦长时复杂任务能力

红杉xbench推出AgentIF-OneDay评测体系聚焦长时复杂任务能力