马里兰大学团队提出“智能体批判性训练”新路径 让机器人助手在行动中学会反思与决策

当前人工智能领域的一大瓶颈于,按传统训练方法得到的系统往往只能在既定场景中按流程执行,缺少在复杂变化下自主决策的能力;在医疗辅助、自动驾驶等高风险领域,该短板更为明显:一旦遇到训练数据之外的突发情况,系统就可能出现严重误判。马里兰大学计算机科学团队在长期研究中发现,现有训练模式的核心问题在于过度依赖专家示范数据的“照着做”,使系统更多学到“怎么做”的操作层知识,却难以理解“为什么这么做”的决策逻辑。这就像只会背公式、不懂原理的学生,面对题型变化往往无从下手。研究团队提出了“ 双轨对比 ”训练机制:在每个学习环节,系统需要对专家方案与干扰方案进行对比评估,并通过强化学习获得反馈。实验结果显示,采用ACT方法训练后,家庭服务机器人在物品摆放异常情况下的任务完成率提升47%;电子商务推荐系统的用户满意度提高32%。该研究的进展主要体现在三个上:第一,建立了可量化的自主决策评估体系;第二,开发了可动态调整的反馈强化算法;第三,验证了方法在跨领域应用中的适用性。项目负责人表示,这类训练范式尤其适合需要实时应变的场景,例如灾害救援设备的远程操控等。行业专家认为,该研究为缓解人工智能“知其然不知其所以然”的问题提供了新的路径。随着算法持续迭代,未来有望在智能制造、智慧城市等领域推广应用。同时也需要看到,该技术对计算资源要求较高,走向商业化仍需在成本控制上更突破。

智能体要真正进入复杂的现实场景,关键不在于记住流程,而在于具备对行动优劣的稳定判断能力。以对比决策为牵引、以反馈机制为约束的训练路径,为系统提供了一种“在做中学、在比中悟”的方式。面向下一阶段的应用拓展,技术演进还需与可靠性评测、安全治理和责任机制同步推进,才能更稳妥地服务科研创新与社会生活。