马里兰大学团队提出“智能体批判性训练”新路径让机器人助手在行动中学会反思与决策

当前人工智能领域的一大瓶颈于，按传统训练方法得到的系统往往只能在既定场景中按流程执行，缺少在复杂变化下自主决策的能力；在医疗辅助、自动驾驶等高风险领域，该短板更为明显：一旦遇到训练数据之外的突发情况，系统就可能出现严重误判。马里兰大学计算机科学团队在长期研究中发现，现有训练模式的核心问题在于过度依赖专家示范数据的“照着做”，使系统更多学到“怎么做”的操作层知识，却难以理解“为什么这么做”的决策逻辑。这就像只会背公式、不懂原理的学生，面对题型变化往往无从下手。研究团队提出了“ 双轨对比 ”训练机制：在每个学习环节，系统需要对专家方案与干扰方案进行对比评估，并通过强化学习获得反馈。实验结果显示，采用ACT方法训练后，家庭服务机器人在物品摆放异常情况下的任务完成率提升47%；电子商务推荐系统的用户满意度提高32%。该研究的进展主要体现在三个上：第一，建立了可量化的自主决策评估体系；第二，开发了可动态调整的反馈强化算法；第三，验证了方法在跨领域应用中的适用性。项目负责人表示，这类训练范式尤其适合需要实时应变的场景，例如灾害救援设备的远程操控等。行业专家认为，该研究为缓解人工智能“知其然不知其所以然”的问题提供了新的路径。随着算法持续迭代，未来有望在智能制造、智慧城市等领域推广应用。同时也需要看到，该技术对计算资源要求较高，走向商业化仍需在成本控制上更突破。

智能体要真正进入复杂的现实场景，关键不在于记住流程，而在于具备对行动优劣的稳定判断能力。以对比决策为牵引、以反馈机制为约束的训练路径，为系统提供了一种“在做中学、在比中悟”的方式。面向下一阶段的应用拓展，技术演进还需与可靠性评测、安全治理和责任机制同步推进，才能更稳妥地服务科研创新与社会生活。

马里兰大学团队提出“智能体批判性训练”新路径 让机器人助手在行动中学会反思与决策

马里兰大学团队提出“智能体批判性训练”新路径让机器人助手在行动中学会反思与决策