科研团队突破人工智能认知瓶颈图像生成系统首次实现类人多轮思考

（问题）长期以来，主流图像生成系统多采用“一次性生成”：模型接收文本提示后直接输出最终图像，用户不满意只能重新生成、反复试错。这简单场景还能应付，但遇到多约束、细节必须严格对齐的任务时，常见问题包括元素缺失、物体数量不符、空间关系错误等。相比人类绘画“先草稿、再审视修改”的过程，生成模型缺少“回看—纠错—完善”的闭环，使可控性和可靠性受到限制。（原因）研究团队认为，迭代式改进之所以难落地，主要有两点：一是缺少高质量的“思考轨迹”数据，无法刻画从初稿到定稿每一步如何发现问题、制定修改策略并落实到画面细节；二是现有训练范式更强调单次输出的整体效果，对中间步骤缺少约束与状态记忆，容易出现“修好一处、又破坏另一处”，难以稳定收敛到满足指令的结果。（影响）为此，团队提出UniT框架，目标是让模型具备三类能力：其一是验证与核查能力，能按用户指令逐条对照生成结果，找出不符合之处；其二是子目标拆解能力，可将复杂指令拆成可执行的小步骤，按优先级推进；其三是内容记忆能力，记录每轮修改的依据与结果，减少反复回退。在训练上，团队采用多角色协作的数据构造：一个模型生成初始图像，另一个模型对照指令评估并给出可操作的修订建议，再由第三个模型按建议完成修改，如此循环直至达到目标。研究人员由此收集约12000条完整迭代轨迹，用于训练统一模型，使其在实际使用中能自行进行多轮审视与修订。公开结果显示，UniT具有较强泛化能力：训练数据平均约3.6轮迭代，但测试时可自主延长到平均约4.7轮，在更复杂约束下仍能继续推进修订。多项基准评测中，相比单次生成，图像生成质量指标提升约10.34%；多轮图像编辑任务提升约225.19%；视觉推理涉及的测试准确率提高约53.33%。这些结果表明，图像生成正在从“直接给结果”转向“先生成、再核查、再修正”，有望提升复杂任务下的一致性与可控性。值得关注的还有算力效率。团队对比发现，在相同计算预算下，迭代式改进的效果约为“并行生成多个候选再择优”的2.5倍。原因在于，多候选策略往往将算力分散到大量重复尝试上，而迭代策略把算力集中在针对性纠错与逐步逼近目标上，更接近工程中“检查驱动改进”的流程，在资源受限场景更容易获得稳定收益。（对策）业内人士认为，迭代式生成要更广泛落地，仍需在三上持续补齐：一是建立更贴近真实需求的评估与校验机制，覆盖结构一致性、文本语义对齐、细节保真等维度，减少“看着合理但不符合指令”的偏差；二是增强记忆与状态管理能力，让模型在多轮编辑中保持全局一致，避免局部修补引发连锁问题；三是将安全与合规设计前置，把内容审核、风险提示与可追溯记录纳入迭代链路，降低不当内容生成与误用风险。（前景）从产业趋势看，多轮推理与自我校验可能成为生成式视觉系统的重要方向。随着应用从“生成一张好看的图”转向“按要求完成可验证的视觉任务”，例如电商商品图规范化、影视分镜草案、工业设计迭代、教育可视化演示等，对可控性、可解释性与稳定性的要求将持续提高。UniT所代表的“闭环式生成”思路，为更复杂的指令遵循与流程化创作提供了可借鉴路径。论文信息显示，该研究已于2026年2月在预印本平台发布，编号为arXiv:2602.12279v1。

UniT的出现，意味着图像生成从“一次出图”迈向“生成—核查—修正”的新阶段。这不仅是指标上的提升，更让系统具备了持续复盘和自我修正的能力。随着多轮思考与校验机制继续完善并进入更多应用场景，生成式AI有望在创作与生产流程中提供更稳定、可验证的支持，更好服务于人类的创新与实践。

科研团队突破人工智能认知瓶颈 图像生成系统首次实现类人多轮思考

科研团队突破人工智能认知瓶颈图像生成系统首次实现类人多轮思考