科研团队突破人工智能认知瓶颈 图像生成系统首次实现类人多轮思考

(问题)长期以来,主流图像生成系统多采用“一次性生成”:模型接收文本提示后直接输出最终图像,用户不满意只能重新生成、反复试错。这简单场景还能应付,但遇到多约束、细节必须严格对齐的任务时,常见问题包括元素缺失、物体数量不符、空间关系错误等。相比人类绘画“先草稿、再审视修改”的过程,生成模型缺少“回看—纠错—完善”的闭环,使可控性和可靠性受到限制。 (原因)研究团队认为,迭代式改进之所以难落地,主要有两点:一是缺少高质量的“思考轨迹”数据,无法刻画从初稿到定稿每一步如何发现问题、制定修改策略并落实到画面细节;二是现有训练范式更强调单次输出的整体效果,对中间步骤缺少约束与状态记忆,容易出现“修好一处、又破坏另一处”,难以稳定收敛到满足指令的结果。 (影响)为此,团队提出UniT框架,目标是让模型具备三类能力:其一是验证与核查能力,能按用户指令逐条对照生成结果,找出不符合之处;其二是子目标拆解能力,可将复杂指令拆成可执行的小步骤,按优先级推进;其三是内容记忆能力,记录每轮修改的依据与结果,减少反复回退。在训练上,团队采用多角色协作的数据构造:一个模型生成初始图像,另一个模型对照指令评估并给出可操作的修订建议,再由第三个模型按建议完成修改,如此循环直至达到目标。研究人员由此收集约12000条完整迭代轨迹,用于训练统一模型,使其在实际使用中能自行进行多轮审视与修订。 公开结果显示,UniT具有较强泛化能力:训练数据平均约3.6轮迭代,但测试时可自主延长到平均约4.7轮,在更复杂约束下仍能继续推进修订。多项基准评测中,相比单次生成,图像生成质量指标提升约10.34%;多轮图像编辑任务提升约225.19%;视觉推理涉及的测试准确率提高约53.33%。这些结果表明,图像生成正在从“直接给结果”转向“先生成、再核查、再修正”,有望提升复杂任务下的一致性与可控性。 值得关注的还有算力效率。团队对比发现,在相同计算预算下,迭代式改进的效果约为“并行生成多个候选再择优”的2.5倍。原因在于,多候选策略往往将算力分散到大量重复尝试上,而迭代策略把算力集中在针对性纠错与逐步逼近目标上,更接近工程中“检查驱动改进”的流程,在资源受限场景更容易获得稳定收益。 (对策)业内人士认为,迭代式生成要更广泛落地,仍需在三上持续补齐:一是建立更贴近真实需求的评估与校验机制,覆盖结构一致性、文本语义对齐、细节保真等维度,减少“看着合理但不符合指令”的偏差;二是增强记忆与状态管理能力,让模型在多轮编辑中保持全局一致,避免局部修补引发连锁问题;三是将安全与合规设计前置,把内容审核、风险提示与可追溯记录纳入迭代链路,降低不当内容生成与误用风险。 (前景)从产业趋势看,多轮推理与自我校验可能成为生成式视觉系统的重要方向。随着应用从“生成一张好看的图”转向“按要求完成可验证的视觉任务”,例如电商商品图规范化、影视分镜草案、工业设计迭代、教育可视化演示等,对可控性、可解释性与稳定性的要求将持续提高。UniT所代表的“闭环式生成”思路,为更复杂的指令遵循与流程化创作提供了可借鉴路径。论文信息显示,该研究已于2026年2月在预印本平台发布,编号为arXiv:2602.12279v1。

UniT的出现,意味着图像生成从“一次出图”迈向“生成—核查—修正”的新阶段。这不仅是指标上的提升,更让系统具备了持续复盘和自我修正的能力。随着多轮思考与校验机制继续完善并进入更多应用场景,生成式AI有望在创作与生产流程中提供更稳定、可验证的支持,更好服务于人类的创新与实践。